文本分析

【知识图谱学习笔记】(二)知识图谱基本知识

爱⌒轻易说出口 提交于 2020-03-09 06:25:05
目录 前言 2.1 知识表示和建模 2.2知识表示学习 2.3实体识别与链接 2.4实体关系学习 2.5事件知识学习 2.6 知识图谱查询和推理计算 参考文献 前言 本文介绍了有关知识图谱领域相关的基本知识的定义、意义,以及研究的内容与挑战。 2.1 知识表示和建模 ·Sowa J F. Knowledge representation: logical, philosophical, and computational foundations. 1999. ·Noy N F, McGuinness D L. Ontology Development 101: A Guide to Creating Your First Ontology. another version(找不到) 知识表示 知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始,就有了知识表示的研究。知识图谱的知识表示以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,为理解互联网内容提供了基础支撑。 哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信

文献阅读15-OntoILPER:A logic-based relational learning approach关系抽取,NER,RE

送分小仙女□ 提交于 2020-03-08 20:53:28
文章目录 abstract 1.Introduction 2.2. Supervised Machine Learning Approaches to Relation Extraction 2.1. Statistical Learning Approach 2.1.1 Feature-based approaches to RE 2.1.2 Kernel-based approaches to RE 2.2. Relational Learning Approach 2.2.1. Inductive Logic Programming 2.2.2 Ontologies 2.2.3 ILP-based systems for RE 2.2.4 Qualitative Comparison of ILP-based RE systems Lima, R., et al. (2019). “A logic-based relational learning approach to relation extraction:The OntoILPER system.” Engineering Applications of Artificial Intelligence, Elsevier 78: 142-157. 机器学习中可能的函数构成的空间称为 假设空间 abstract 关系提取

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

核能气质少年 提交于 2020-03-08 17:54:07
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 摘要 我们引入了一个新的叫做bert的语言表示模型,它用transformer的双向编码器表示。与最近的语言表示模型不同,BERT通过在所有层的上下文联合调节来预训练深层双向表示。因此,预训练的bert可以添加一个额外的输出层进行微调,可以在广泛的任务上产生目前最好的效果。例如问答和语言推理,不需要大量特定任务的结构的修改。 BERT在概念上简单且经验丰富。它在11项自然语言处理任务中获得了最新的最新成果,包括GLUE分数,MultiNLI精度,问答。 1 简介 语言模型预训练已被证明对改进许多自然语言处理任务是有效的。包括句子级任务,如自然语言推理和释义,旨在通过对整体的分析预测句子之间的关系。令牌级别任务,例如命名实体识别和问答,模型需要在令牌级别上产生细粒度的输出。 在预训练的语言表示应用到下游任务上有两种策略:基于特征和微调。基于特征的方式,例如ELMO包括特定于任务的体系结构,包括预训练的表示作为一个附加特征。微调的方法,例如Generative Pre-trained Transformer (OpenAI GPT),引入了最小的特定任务参数,并通过简单地微调所有预训练参数来训练下游任务

什么是多模态机器学习?

|▌冷眼眸甩不掉的悲伤 提交于 2020-03-07 23:40:00
什么是多模态机器学习? 首先,什么叫做模态(Modality)呢? 每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。 同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。 因此,多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。 多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。 人其实是一个多模态学习的总和,所以也有”砖家“说了,多模态学习才是真正的人工智能发展方向。 本文将针对多模态学习在深度学习发面的研究方向和应用做相关介绍,主要参考了来自ACL 2017的《 Tutorial on Multimodal Machine Learning 》。 多模态学习的分类 多模态学习可以划分为以下五个研究方向: 多模态表示学习 Multimodal Representation 模态转化 Translation 对齐 Alignment 多模态融合

大数据分析处理基本流程

纵饮孤独 提交于 2020-03-07 02:49:49
大数据分析处理基本流程 数据准备 数据获取(爬虫,统计) 数据清洗(获得想要的数据,去除无用的相关数据) 特征工程 特征提取 比如我爬下网页,网页中有图片,视频,文本信息,url等等之类的特征消息 特征选择 网页保存这学生的信息,我想要计算每个学生的BMI(身体质量指数),而这类信息是在网页中的文本信息中的名字,身高和体重就行了,除此之外的学习成绩,寝室号就不重要了。 建模分析 模型选择 模型训练 模型评测 数据可视化和分析报告 来源: https://www.cnblogs.com/lonelyshy/p/12432078.html

Python将PDF转为TXT

给你一囗甜甜゛ 提交于 2020-03-05 07:23:50
PDFMiner----python的PDF解析器和分析器 1.官方文档: http://www.unixuser.org/~euske/python/pdfminer/index.html 2.特征 完全使用python编写。 (适用于2.4或更新版本) 解析,分析,并转换成PDF文档。 PDF-1.7规范的支持。 (几乎) 中日韩语言和垂直书写脚本支持。 各种字体类型(Type1、TrueType、Type3,和CID)的支持。 基本加密(RC4)的支持。 PDF与HTML转换。 纲要(TOC)的提取。 标签内容提取。 通过分组文本块重建原始的布局。 3.安装 注:使用源码安装,并且处理中日韩语言的时候还需要一个额外的安装步骤 4.用法 4.1解析pdf文件用到的类: PDFParser:从一个文件中获取数据 PDFDocument:保存获取的数据,和PDFParser是相互关联的 PDFPageInterpreter处理页面内容 PDFDevice将其翻译成你需要的格式 PDFResourceManager用于存储共享资源,如字体或图像。 PDFMiner的类之间的关系图: 4.2基本用法 4.2.1解析pdf文件 from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import

文本相似度的衡量之余弦相似度

此生再无相见时 提交于 2020-03-05 04:59:27
余弦计算相似度度量 相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。下面介绍一个详细成熟的向量空间余弦相似度方法计算相似度 向量空间余弦相似度(Cosine Similarity) 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。 上图两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性,极端情况下,a和b向量完全重合。如下图: 如上图二:可以认为a和b向量是相等的,也即a,b向量代表的文本是完全相似的,或者说是相等的。如果a和b向量夹角较大,或者反方向。如下图 如上图三: 两个向量a,b的夹角很大可以说a向量和b向量有很底的的相似性,或者说a和b向量代表的文本基本不相似。那么是否可以用两个向量的夹角大小的函数值来计算个体的相似度呢? 向量空间余弦相似度理论就是基于上述来计算个体相似度的一种方法。下面做详细的推理过程分析。 想到余弦公式

文本分析

戏子无情 提交于 2020-03-03 04:51:51
jieba库 jieba是优秀的中文分词第三方库 ,具体使用方法如下 import jieba test_str = ' 新华网东京记者据日本共同社28日报道' test_str = test_str . strip ( ) result = jieba . cut ( test_str , cut_all = False ) #print(result)打印为可迭代的生成器 print ( ' ' . join ( result ) ) 运行结果如下所示: import jieba seg_list = jieba . cut ( "我来到北京清华大学" , cut_all = True ) print ( "全模式:" + "/" . join ( seg_list ) ) #全模式 seg_list = jieba . cut ( "我来到北京清华大学" , cut_all = False ) print ( "精确模式:" + "/" . join ( seg_list ) ) #精确模式 seg_list = jieba . cut ( "他来到了网易杭研大厦" ) #默认是精确模式 print ( "默认模式:" + "/" . join ( seg_list ) ) seg_list = jieba . cut_for_search (

NLP:1-使用NLTK了解语料

倾然丶 夕夏残阳落幕 提交于 2020-03-01 18:45:59
本章要点: 使用NLTK了解语料 导入语料 NLTK库 0,本地语料转Text类 1,搜索文本 文章搜索:concordance() 相似词搜索:similar() 上下文搜索:common_contexts() 可视化词频:dispersion_plot() 2,词汇计数 长度:len() 去重:set() 排序:sorted(set(text)) 一个词的个数:count() 3,词频分布 FreqDist() 词频分布类中定义的函数 4,词语搭配和双联词 安装nltk库及语料 1,安装nltk库 2,安装nltk语料库 使用NLTK了解语料 导入语料 with open ( "./text.txt" ) as f : text = f . read ( ) print ( type ( text ) ) print ( text [ : 200 ] ) <class 'str'> [ Moby Dick by Herman Melville 1851 ] ETYMOLOGY . ( Supplied by a Late Consumptive Usher to a Grammar School ) The pale Usher -- threadbare in coat , heart , body , and brain ; I see him now . He was

Elasticsearch -- 映射和分析

情到浓时终转凉″ 提交于 2020-03-01 06:15:38
映射(mapping) 机制用于进行字段类型确认,将每个字段匹配为一种确定的数据类型( string , number , booleans , date 等)。 分析(analysis) 机制用于进行 全文文本(Full Text) 的分词,以建立供搜索用的反向索引。 映射及分析 当在索引中处理数据时,我们注意到一些奇怪的事。有些东西似乎被破坏了: 在索引中有12个tweets,只有一个包含日期 2014-09-15 ,但是我们看看下面查询中的 total hits。 GET /_search?q=2014 # 12 个结果 GET /_search?q=2014-09-15 # 还是 12 个结果 ! GET /_search?q=date:2014-09-15 # 1 一个结果 GET /_search?q=date:2014 # 0 个结果 ! 为什么全日期的查询返回所有的tweets,而针对 date 字段进行年度查询却什么都不返回? 为什么我们的结果因查询 _all 字段(译者注:默认所有字段中进行查询)或 date 字段而变得不同? 想必是因为我们的数据在 _all 字段的索引方式和在 date 字段的索引方式不同而导致。 让我们看看Elasticsearch在对 gb 索引中的 tweet 类型进行 mapping (也称之为 模式定义 [注:此词有待重新定义