Semantic

pointnet++之scannet/train.py

混江龙づ霸主 提交于 2020-07-28 08:42:54
1.作者可能把scannet数据集分成了训练集和测试集并处理成了.pickle文件。 2.在代码运行过程中,作者从.pickle文件中读出训练集1201个场景的x、y、z坐标和测试集312个场景的x、y、z坐标。 3.考虑把点存到.txt文件中,用cloudcompare可视化一下。 2--地板 3--椅子 8--沙发 20--靠枕 单独存入训练数据到txt文件 : TRAIN_DATASET = scannet_dataset.ScannetDataset( root=DATA_PATH , npoints=NUM_POINT , split= 'train') for i in range(len(TRAIN_DATASET.scene_points_list)): filename = '' .join([ " TRAIN_DATASET_ " ,str(i+1), ' .txt ' ]) np.savetxt(filename, TRAIN_DATASET.scene_points_list[i],fmt = " %.8f " , delimiter= ' , ' ) 单独存入训练数据的标签到txt文件 : for i in range(len(TRAIN_DATASET.semantic_labels_list)): filename = '' .join([ "

把人骑马变成人牵着马,这篇 CVPR2020 论文实现语义级别图像修改

一笑奈何 提交于 2020-07-27 22:02:40
  图像修改是图像生成领域的一个特殊任务,它要求生成对原图进行修改后得到的图片。例如常用的美颜、修图软件,可以得到原照调整后的美颜人像。目前,绝大多数的图片操纵和生成都是在像素级别进行的。随着技术的进步,基于语义的图像修改和生成成为可能。   一篇 CVPR2020 的论文 Semantic Image Manipulation Using Scene Graphs 就聚焦图片语义级别修改问题,实现针对场景图的修改图片生成问题。即给定一张图片,先生成一个表示图片中出现的对象及其关系的语义场景图,用户可以利用场景图方便地修改其中的节点(对象)和边(关系),模型再根据这些修改后的场景图和原图生成修改后的图片,如图一所示。   这需要模型对原图中的对象进行替换或者改变原图中对象之间的关系,但还要保持生成的图片和原图中语义关系以及风格一致。      图丨基于语义关系的图片修改。基于原图(source image),模型首先生成场景图,接下来用户对场景图进行修改,最后模型根据修改的场景图生成新的图片。图中用户将女孩和马的关系由 “骑” 变为“在旁边”(来源:Semantic Image Manipulation Using Scene Graphs)   高层级的图片修改是以语义为中心的,这项技术有广泛的应用场景。   编辑旅行风景照时,不需要再手动切割、删除其中多余的旅客

达摩院再获自动驾驶权威测评第一,车辆可识别“厘米级”障碍物

南笙酒味 提交于 2020-05-09 17:42:22
达摩院再获自动驾驶权威测评第一。5月8日消息,在自动驾驶权威数据集Semantic KITTI上,达摩院凭借全新算法在“单帧3D点云语义分割”排行榜获得第一。该技术用于达摩院的无人物流车后,大幅提升了车辆的环境精细化理解能力,使车辆能够识别“厘米级”障碍物。 KITTI数据集是全球最权威的自动驾驶计算机算法评测数据集,为促进基于激光的语义分割研究,KITTI推出了细分数据集Semantic KITTI,通过全类别分割平均交并比(mIOU)和整体准确率(accuracy)两大指标,考察参赛者的技术能力。达摩院团队在两项指标的评比中均拿下第一。 点云(Point Cloud)是拥有三维坐标、强度等信息的激光点的集合,是计算机视觉领域常用的三维数据表示方式。自动驾驶车辆通常借助激光雷达、摄像头、毫米波雷达等传感器识别环境信息。对于激光雷达获取的周围环境的3D点云,识别每个点的语义标签,就是“3D点云语义分割”。 △ 图左为原始点云,图右为经过语义分割的点云,自动驾驶车辆辨别出了行人、车辆、树木、建筑等物体。 除了行人、车辆等常规检测目标,道路周围的建筑、绿化、不明障碍物也会影响自动驾驶车辆的驾驶行为,3D点云语义分割技术的目标,便是帮助车辆更精细地理解道路环境。 达摩院自动驾驶实验室资深算法专家卿泉介绍,业界通用的点云局部上下文特征建模方法难以满足自动驾驶实时、精准的感知需求

学术分享丨深度学习在术前手术规划中的应用

我只是一个虾纸丫 提交于 2020-05-09 15:34:00
  随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,与大家分享《深度学习在术前手术规划中的应用》。   外科手术的进步对急性和慢性疾病的管理,延长寿命和不断扩大生存范围都产生了重大影响。如图1所示,这些进步得益于诊断,成像和外科器械的持续技术发展。这些技术中,深度学习对推动术前手术规划尤其重要。手术规划中要根据现有的医疗记录来计划手术程序,而成像对于手术的成功至关重要。在现有的成像方式中,X射线,CT,超声和MRI是实际中最常用的方式。基于医学成像的常规任务包括解剖学分类,检测,分割和配准。      图1:概述了流行的AI技术,以及在术前规划,   术中指导和外科手术机器人学中使用的AI的关键要求,挑战和子区域。 1、分类   分类输出输入的诊断值,该输入是单个或一组医学图像或器官或病变体图像。除了传统的机器学习和图像分析技术,基于深度学习的方法正在兴起[1]。对于后者,用于分类的网络架构由用于从输入层提取信息的卷积层和用于回归诊断值的完全连接层组成。   例如,有人提出了使用GoogleInception和ResNet架构的分类管道来细分肺癌,膀胱癌和乳腺癌的类型[2]

DeFormer:分解预先训练的Transformers,以更快地回答问题

我的梦境 提交于 2020-05-09 14:22:08
这篇paper在去年盲审的时候就读过,这次终于读完了。 FASTER AND JUST AS ACCURATE: A SIMPLE DECOMPOSITION FOR TRANSFORMER MODELS( 更快且同样准确:Transformer模型的简单分解 ) https://openreview.net/pdf?id=B1gKVeBtDH ​ openreview.net Introduction 文本的研究基于先前的研究: @张俊林 AI科技大本营:张俊林:BERT和Transformer到底学到了什么 | AI ProCon 2019 ​ zhuanlan.zhihu.com 较低的层次倾向于对局部现象建模(如词性、句法范畴),而较高的层次倾向于对依赖于任务的语义现象建模(如词性、句法范畴),可以以很小的效率成本提供加速。 DeFormer引入一个简单的分解预训练的基于转换的模型,在分解的模型中,较低的层独立地处理问题和上下文文本,而较高的层联合地处理它们。假设我们允许n层模型中的k个更低的层独立地处理问题和上下文文本。DeFormer通过k个较低的层离线处理上下文文本,并缓存第k层的输出。在运行时,首先通过模型的k层处理问题,然后从缓存加载第k层的文本表示。这两个第k层表示被作为输入输入到第(k + 1)层,并通过与原始模型相同的更高的层继续进行进一步的处理。

Logstash filter 插件之 grok

▼魔方 西西 提交于 2020-05-08 20:33:27
本文简单介绍一下 Logstash 的过滤插件 grok。 Grok 的主要功能 Grok 是 Logstash 最重要的插件。它可以解析任意文本并把它结构化。因此 Grok 是将非结构化的日志数据解析为可查询的结构化数据的好方法 。 这个工具非常适合 syslog 日志、apache 和其他 web 服务器日志、mysql 日志,以及那些通常为人(而不是计算机)编写的日志格式。 Grok 使用正则表达式提取日志记录中的数据,这也正是 grok 强大的原因。Grok 使用的正则表达式语法与 Perl 和 Ruby 语言中的正则表达式语法类似。你还可以在 grok 里预定义好命名正则表达式,并在稍后(grok 参数或者其他正则表达式里)引用它。 Grok 语法 语法格式: %{SYNTAX:SEMANTIC} SYNTAX 是文本匹配的正则表达式模式。比如 NUMBER 模式可以匹配到 3.15 之类的数字;IP 模式可以匹配到 192.168.0.1 等 IP 地址。 SEMANTIC 是为匹配的文本提供的标识符。比如,3.15 可以是事件的 duration(持续时间),因此可以简单地将其称为 duration;字符串 192.168.0.1 用来标识发出请求的 client。 因此和用下面的模式来结构化日志记录: %{NUMBER:duration} %{IP:client}

常见的32项NLP任务以及对应的评测数据、评测指标、目前的SOTA结果以及对应的Paper

浪尽此生 提交于 2020-05-08 14:30:47
任务 描述 corpus/dataset 评价指标 SOTA 结果 Papers Chunking 组块分析 Penn Treebank F1 95.77 A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks Common sense reasoning 常识推理 Event2Mind cross-entropy 4.22 Event2Mind: Commonsense Inference on Events, Intents, and Reactions Parsing 句法分析 Penn Treebank F1 95.13 Constituency Parsing with a Self-Attentive Encoder Coreference resolution 指代消解 CoNLL 2012 average F1 73 Higher-order Coreference Resolution with Coarse-to-fine Inference Dependency parsing 依存句法分析 Penn Treebank POS UAS LAS 97.3 95.44 93.76 Deep Biaffine Attention for Neural Dependency

Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks-paper

本小妞迷上赌 提交于 2020-05-07 19:11:03
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks 作者信息: Kai Sheng Tai Stanford University Richard Socher MetaMind Christopher D. Manning Stanford University 数据: 1)Stanford Sentiment Treebank 情感分为五类 2)Sentence Involving Compositional Knowledge(SICK) 句子对有相关性得分 1 introduction Most models for distributed representations of phrases and sentences—that is, models where realvalued vectors are used to represent meaning—fall into one of three classes: bag-of-words models-句子中的单词的序列关系看不出来 sequence models tree-structured models.-包含了句法语义 与standard LSTM 相比, Tree-LSTM

CS231n笔记 Lecture 11, Detection and Segmentation

蹲街弑〆低调 提交于 2020-05-07 14:02:13
Other Computer Vision Tasks Semantic Segmentation. Pixel level, don't care about instances. Classification + Localization. Single object. Object Detection. Multiple object. Instance Segmentation. Multiple object. Semantic Segmentation Simple idea: sliding window, crop across the whole image, and ask what the center pixel is. Expensive. Fully Convoltional (Naive) : let the network to learning all the pixels at once, keep the spacial size, convolutions at original image resolution, expensive. Fully convolutional: Design network as a bunch of convolutional layers, with downsampling and upsampling

MMDetection官方教程 技术细节 | 四

一曲冷凌霜 提交于 2020-05-06 20:27:13
作者|open-mmlab 编译|Flin 来源|Github 技术细节 在本节中,我们将介绍训练检测器的主要单元:数据管道,模型和迭代管道。 数据管道 按照规定, 我们使用 Dataset 和 DataLoader 用于多个处理的数据加载。 Dataset 返回对应于模型的forward方法的参数的数据项字典。由于对象检测中的数据大小可能不同(图像大小,gt bbox大小等),因此我们在MMCV中引入了一种新类型 DataContainer ,以帮助收集和分配不同大小的数据。有关更多详细信息,请参见此处( https://github.com/open-mmlab/mmcv/blob/master/mmcv/parallel/data_container.py ) 。 对数据准备管道和数据集进行分解。通常,数据集定义了如何处理注释,数据管道定义所有准备数据字典的步骤。流水线由一系列操作组成。每个操作都将一个dict作为输入,并为下一个转换输出一个dict。 在下图中,我们展示了经典管道。蓝色块是管道操作。随着管道的进行,每个操作员可以向结果字典添加新键(标记为绿色)或更新现有键(标记为橙色)。 这些操作分为数据加载, 预处理, 格式化和测试时间扩充。 这是Faster R-CNN的管道示例。 img_norm_cfg = dict( mean=[123.675, 116.28,