句子

NLTK的使用

馋奶兔 提交于 2020-01-18 21:39:55
安装nltk.参考:http://www.cnblogs.com/kylinsblog/p/7755843.html NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。 下面介绍如何利用NLTK快速完成NLP基本任务 一、NLTK进行分词 用到的函数: nltk.sent_tokenize(text) #对文本按照句子进行分割 nltk.word_tokenize(sent) #对句子进行分词 #!/usr/bin/python # -*- coding: UTF-8 -*- print('nlp2 test') import nltk text = 'PathonTip.com is a very good website. We can learn a lot from it.' #将文本拆分成句子列表 sens = nltk.sent_tokenize(text) print(sens) #将句子进行分词,nltk的分词是句子级的,因此要先分句,再逐句分词,否则效果会很差. words = [] for sent in sens: words.append(nltk.word_tokenize(sent)) print(words) 执行结果: 二、NLTK进行词性标注 用到的函数:

人工智能(七)逻辑Agent

≯℡__Kan透↙ 提交于 2020-01-12 08:25:21
一、逻辑 逻辑是一种可以从中找出结论的形式化语言。 句法(规则)用语言定义句子。 语义定义句子的含义。定义一个句子的真假性。 二、蕴含 即一个事情逻辑上是另一个事情的必然结果:KB ╞ α 知识库KB蕴含句子α,当且仅当α在所有KB为真的世界里均为真。 蕴含是基于语法的句子关系。 三、命题逻辑 命题逻辑是最简单的逻辑——只能表明基础的思想 命题符号P1,P2等都是句子,则: 如果S1是句子,那么 !S也是句子(否定) 如果S1和S2都是句子,那么 S1 ^ S2也是句子(合取) 如果S1和S2都是句子,那么 S1 V S2也是句子(析取) 如果S1和S2都是句子,那么 S1 -> S2也是句子(蕴含) 如果S1和S2都是句子,那么 S1 <-> S2也是句子(双向蕴含) 命题逻辑语义 对每个命题符号的模型均有真/假两种可能的取值,对与P1,2 , P2,2 , P3,1三个命题,可以通过枚举的形式自动地给出8个模型. 逻辑的永真性和可满足性 一个句子在某些模型中为真,则它是可满足的。 e.g., A V B, C 一个句子没有模型为真,则它是不可满足的。 e.g., A ^ !A 四、归结 合取范式一些析取式的合取式。 • 对与命题逻辑来说归结法是可靠的,也是完备的。 转换规则 五、有效的命题推理 两个有效的命题推理算法家族: 完备的回溯搜索算法 戴维斯-普特南算法DPLL

自然语言处理之:语义分析-1

我的梦境 提交于 2020-01-11 01:25:10
语义分析(或者叫意义生成)是 NLP 中的任务之一。它被定义为确定字符或单词序列 意义的过程,其可用于执行语义消歧任务。 本章将包含以下主题: • NER。 • 使用 HMM 的 NER 系统。 • 使用机器学习工具包训练 NER。 • 使用词性标注执行 NER。 • 使用 Wordnet 生成同义词集 id。 • 使用 Wordnet 进行词义消歧。 NLP 指的是在自然语言上执行计算。语义分析是处理自然语言时需要执行的步骤之一。 在分析一个给定的句子时,如果已经构建了句子的句法结构,那么这个句子的语义分析就算完成了。语义解释指的是将意义分配给句子,上下文解释指的是将逻辑形式分配给知识 表示。语义分析的原语或基本单位被称为意义或语义(meaning 或 sense)。ELIZA 是处理语义的工具之一,是由 Joseph Weizenbaum 在六十年代开发出来的,它使用替换和模式匹配技术来分析句子并且为给定的输入提供输出。MARGIE 是由 Robert Schank 在七十年代开 发出来的,它可以使用 11 种原语来表示所有的英语动词。MARGIE 可以解释一个句子的语义并借助原语来表示其语义。MARGIE 之后进一步让位于脚本的概念,脚本应用机制(Script Applier Mechanism,SAM)就是基于 MARGIE 开发出来的,它可以翻译来自不同语言的句子

Hierarchical Attention Based Semi-supervised Network Representation Learning

混江龙づ霸主 提交于 2020-01-11 01:01:57
Hierarchical Attention Based Semi-supervised Network Representation Learning 1. 任务 给定:节点信息网络 目标:为每个节点生成一个低维向量 基于半监督的分层关注网络嵌入方法 2. 创新点: 以半监督的方式结合外部信息 1. 提出SHANE 模型,集成节点结构,文本和标签信息,并以半监督的方式学习网络嵌入 2. 使用分层注意网络学习节点的文本特征, 两层双向GRU 提取单词和句子的潜在特征 3. 背景 1. 现有方法通常基于单词获取节点的文本特征矩阵,忽略分层结构(单词、句子) 2. 不同单词和句子包含不同数量信息,如何评估节点内容的差异性 3. 标签,也是重要的监督信息 4. 网络中存在大量未标记节点,如何合理利用 4. 模型 整合节点的结构,文本和标签信息 基于文本的表示学习 使用分层注意机制 4.1. 问题定义 G = (V, E, T, L) ( V: 节点集 E: 边集合 T: 节点的文本信息 L: 标签节点信息 ) 节点u 的文本信息Du = (Su1, Su2,...,Suq) 句子信息 Sui = (Wui..) 给定信息网络,目标:为每个节点u 整合其结构和文本信息 学习一个低维向量 u, 4.2. 基于文本的表示 分层学习可获取不同粒度的文本信息 词嵌入:捕获词汇特征 句子嵌入:

NLP基础:语言模型

萝らか妹 提交于 2020-01-07 14:16:04
什么是语言模型 语言模型旨在为语句的联合概率函数建模,是用来计算一个句子概率的模型,对有意义的句子赋予大概率,对没有意义的句子赋予小概率,也就是用来判断一句话是否是人话的概念。这样的模型可以用于NLP中的很多任务,如机器翻译、语音识别、信息检索、词性标注以及手写识别等。语言模型考虑两个方面的子任务(以“How long is a football game?”为例): 句子中的词序:“How long game is a football?” 句子中的词义:“How long is a football bame?” 语音识别 举例: “厨房里的食油用完了”和“厨房里的石油用完了” 文本翻译 举例: “you go first”:“你走先”和“你先走” 给定一个句子的词语序列: 如果假设句子中的每个词都相互独立,则整体的句子概率为: 然而,句子中的每一个词的含义均与前面的词紧密相关,所以实际的语言模型概率可以通过条件概率计算为: 求解上式中的条件概率: 这样就存在两个 问题 : 参数空间太大 :条件概率 P ( W k ∣ W 1 , W 2 , . . . , W k − 1 ) P(W_{k}|W_{1},W_{2},...,W_{k-1}) P ( W k ​ ∣ W 1 ​ , W 2 ​ , . . . , W k − 1 ​ ) 的可能性太多,计算开销巨大

《如何阅读一本书》记录(一)

不羁岁月 提交于 2020-01-01 22:39:52
《怎样阅读一本书》 阅读的层次 分析阅读 建立书的架构 规则1:你一定要知道在读哪一类的书? 规则2:使用单一的句子或者最多几句话来叙述整本书的内容 规则3:按照顺序和关系,列出全书最重要的部分。将全书的纲要部分列出来之后,再对各个部分的纲要也一一列出(最好指出那部分主要与次要) 规则4:找出作者在问的问题,或作者想要解决的问题。 规则5:抓住重要的单字,并且该词在作者使用下的具体含义,在此达成一致。 单字与词义:读者和作者使用同一个单词,且取同一个意思 找出关键字:由于作者和读者有着不同的时空背景,有些普通词在阅读上也会造成困扰。(关键字标准视读者的水平而定,这也从侧面体现了基础的重要性,有了一定的基础能力,才能快速完成或者跳过关键字的解读。直接去解读作者的论述意图,提高阅读的效率。) 专门用字(术语)及特殊词汇:作者强调或者该领域已经达成共识的定义(定理)。(作为读者应该将注意文字,找到自己理解困难的地方,标出,并且查阅资料进行理解) 规则6:把一本书中最重要的句子圈出来,找到其中的主旨。 规则7:从相关的文句的关联中,设法架构出一本书的基本论述。 规则8:找出作者的解答和未解答的问题。 规则9:在“同意”,“不同意”或暂缓评论前,一定能肯定地说“我了解” 规则10:当不同意作者的观点时,要理性地表达自己的意见,不要无理辩驳或争论。如果知道或怀疑自己是错的

2019-12-29

萝らか妹 提交于 2020-01-01 02:55:46
各位大佬!求程序! 从键盘读入一行英文句子(各个单词之间用空格隔开,句子之间可以用逗号隔开,例如,I am a teacher,you are a student),统计该英文句子里面有多少个单词,并将每一个单词开头字母变为大写,然后将统计结果,以及单词开头大写的英文句子输入到屏幕上。(注意,可以有若干个连续的空格隔开单词,也可能开头有空格,要考虑完全) 来源: CSDN 作者: Mr,Human 链接: https://blog.csdn.net/qq_45804174/article/details/103754427

语言模型

杀马特。学长 韩版系。学妹 提交于 2019-12-30 22:45:34
语言模型定义 语言模型是用来计算一个句子的概率的模型,也就是判断一句话是否合理的概率 N-gram模型 是一种基于统计的语言模型 基于统计概率,计算一个句子的概率大小概率的公式为: 当概率值越大,则说明句子越合理,概率小,则说明不合理 上面的公式不能直接进行计算,使用条件概率可以将上述公式转换成: 条件概率: P(B|A)表示:A条件下B发生的概率 在条件概率的公式如下所示: 直接将计算一个句子的公式按照条件概率展开计算,即对每一个词都考虑到它前面的所有词,这在实际应用中意义不大,因此引出N-gram模型 1)马尔可夫假设 马尔可夫假设是指每个词出现的概率只跟它前面的少数几个词有关,例如,二阶马尔可夫假设只考虑前面两个词,相应的语言模型是三元模型 一元模型(unigram model): 二元模型(bigram model): 三元模型(trigram model): 2)极大似然估计 可以通过对训练语料做极大似然估计: 3)链式法则 以二元模型为例, N-gram模型的优缺点 1)优点 训练方便,仅仅是一个统计词频的工作 2)缺点 无法获得相对较长的上下文依赖 泛化能力比较弱,只是基于频次进行统计,更多的特征信息没有学到,也没办法进行学到 来源: CSDN 作者: 飞翔的绵羊 链接: https://blog.csdn.net/yangfengling1023/article

句法分析、语义分析

无人久伴 提交于 2019-12-24 21:33:04
一、依存句法分析 ------- 偏 情感分析(词与词关系) (1)依存句法分析的基本概念   依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其 句法结构 。 直观来讲,依存句法分析识别句子中的 “主谓宾”、“定状补” 这些语法成分,并 强调分析词汇之间的关系 。 例如,句子: 国** *** 李** 调***************** ,支持 ********************。 依存句法分析结果(via 哈工大LTP ): 从分析结果中我们可以看到,句子的 核心谓词 为“提出” , 主语 是 李** ,提出的 宾语 是“支持 ** …”,“调*…时”是“提出”的 (时间) 状语 ,“ 李** ” 的 修饰语 是“ 国** ** ”,“支持”的 宾语 是“探索 *** ”。   有了上面的句法分析结果,我们就可以比较容易的看到,“提出者”是“ 李** ”,而不是“上海”或“外高桥”,即使它们都是名词,而且距离“提出”更近。 依存句法分析标注关系 (共14种) 及含义如下: 它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。 依存句法分析中 句子的核心 是 谓语动词 ,围绕谓语找出其他成分 ; (2) HED ,可以用来 构建情感分析(程度词) 二、 语义依存分析/语义分析 ------ 偏 信息抽取(三元组)

考研英语阅读

拥有回忆 提交于 2019-12-24 15:38:22
长难句 主干—三步 1.连词 句子和句子是不能用逗号连接的,要加上连接词,或者将其中任意一个句子改为独立主格。 句子个数=连词的个数 + 1 哪些是连词: and or but yet 无词意: that whether 连接代词:who,whom,whose,what,which,whatever,whoever,whichever 连接副词:when,where,why,how,however,whenver,wherever 2.动词 3.介词 特点 介词引导的成分永远不做主干 不做主干,可以直接去掉 例如 定语 状语 补语 独立主格 独立主格就是独立的主语 when I finish my homework,I start to watch TV. 句子和句子之间必须通过连词连接(男人和男人通过伟大的友谊连接) 那么我不想用连词呢?那就把句子改为非句子(去掉友谊,将一个男人变为女人) 如何变?这里说明一下,如何判断是否为句子:是否含有谓语(就是动词)。所以将谓语改未非谓语即可。 那么非谓语又有哪些?非谓语有三种形式 过去分词 Ved 表被动 现在分词 Ving 表主动 将来分词(就是不定式 to do ) I为主语,是主动的,所以是Ving。 非句子前面都可以加上with (with)I finishing homework,I start to watch TV. 另外