句子

余弦计算相似度度量

半城伤御伤魂 提交于 2019-12-24 00:24:35
相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。下面介绍一个详细成熟的向量空间余弦相似度方法计算相似度 向量空间余弦相似度(Cosine Similarity) 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。 余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。 上图两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性,极端情况下,a和b向量完全重合。如下图: 如上图二:可以认为a和b向量是相等的,也即a,b向量代表的文本是完全相似的,或者说是相等的。如果a和b向量夹角较大,或者反方向。如下图 如上图三: 两个向量a,b的夹角很大可以说a向量和b向量有很低的的相似性,或者说a和b向量代表的文本基本不相似。那么是否可以用两个向量的夹角大小的函数值来计算个体的相似度呢? 向量空间余弦相似度理论就是基于上述来计算个体相似度的一种方法。下面做详细的推理过程分析。 想到余弦公式

侃一侃编译原理的“文法”

落花浮王杯 提交于 2019-12-22 02:30:10
如果你敲累了代码,想喝喝咖啡,顺便看点儿可以当佐料的文章那本文应该比较适合现在的你。(•̀ᴗ•́)و ̑̑ 我们一天天都在和代码打交道,但是你了解代码的运行原理么?为什么你的一行代码就能被执行出五花八门的效果嘞? 其实代码这玩意儿就是一门语言。是的,你可以看成和中文、英文等语言平等的存在。是语言就得有语言的解析规则,不懂得规则自然无法理解语言的意思。就跟看没字幕的美剧一样,真是痛苦。╮(╯﹏╰)╭ 中文有中文的语义、语法、句子、句法、文法,那么编程语言也有自己的语言系统。 我们知道,我们写的代码被编译器或者解释器所执行,那它们是按照什么文法来理解你的代码呢?这就是文法。 本文也不会深入去解析文法,不然可以直接转语言学了(笑~)。本文只是简单介绍文法的一些概念。如果您喝着咖啡,看完之后,能有些许收获,微微一笑,那本文的目的也就达到了。^_^ 工欲善其事必先利其器。在谈文法之前,我们先介绍几个概念。 一.文法涉及的几个简单概念 假设Σ是一个有限的 字母表集合 ,它的每一元素都是一个 符号 。Σ上的一个 符号串 就是指由Σ中的符号组成的一个有限序列。如果一个符号串不包含任何符号,就叫它 空串 ,记为ε。现在再定义一个集合U和V的 连接积 的概念:          UV = {αβ | α∈U,β∈V} 比如A = {a,b},B = {1,2},则AB={a1,a2,b1,b2}

语法进阶之两大短语

你离开我真会死。 提交于 2019-12-22 02:19:03
如果你只追求学了多长时间,那你一定坚持不了,体会每个句子的博大精深! 宾语和补足语都是有谓语动词决定的,所以它们被称为“谓语成分”! 这里的谓语并不是谓语本身,而是谓语后边能接的成分 补足语:名词性或形容词性的。 动词决定的句子成分——动词决定了句型 五种基本句型为什么不考虑状语和定语?? 谓语动词决定着 五种基本句型 句子成分超精解步骤 副词的位置: 一般而言: 副词放在前3类动词之后,实意动词之前(及物动词和不及物动词) (情态动词、系动词、助动词) he not have a math book hope和wish的区别: 1. hope和wish后面接的从句that,wish要用虚拟语气,hope则用相应的时态 2. hope to do sth (错误: hope sb to do sth)   wish sb to do sth 什么时候需要使用助动词?? 最常用的助动词有: be , have/has, do/does, shall, did, will, should, would等。 助动词可以协助主要动词构成 时态或者语态 ,也可构成疑问句和否定句,构成否定句时与否定副词not连用。 a. 表示 时态 ,例如:   He is singing . 他在唱歌。   He has got married. 他已结婚。 b. 表示 语态 ,例如:(被动语态)   He

NLP中文句子类型判别和分类实现

依然范特西╮ 提交于 2019-12-18 08:21:15
目录 一、中文句子类型主要类别 1、陈述句(statement) 2、特殊句(special) 3、疑问句(question) 二、中文句子类型简单分析 三、将句法分析与正则结合标注句子类型 四、句子类型调研及规则总结 五、中文句子类型分类工具sentypes实现 一、中文句子类型主要类别 1、陈述句(statement) 主语为首(subject_front),例:大家对这件事都很热心 主题为首(theme_front),例:红绿灯,真好玩 复合句(complex),例:他们飞的好高好远,穿过白云,越过海洋 2、特殊句(special) 把字句(ba_struct),例:阳光把冷冷的冬天赶走了 被字句(bei_struct),例:衣服被雨淋湿了 存在句(exist),例:门口有两头狮子 感叹句(sigh),例:真谢谢你! 祈使句(Imperative),例:小心! 连字句(lian_struct),例:我不但眼睛不舒服,好像连耳朵也优点疼 是字句(shi_struct),例:我的爸爸是老师 比较句(compare),例:我的力气比你大 3、疑问句(question) 疑问词问句(特指问句)(question_words),例:你什么时候回来 是非问句(whether),例:你今天会准时下课吗 选择问句(choice),例:他是坐火车来的,还是坐汽车来的 正反问句(pos_and

编译原理——证明文法具有二义性

谁说我不能喝 提交于 2019-12-15 02:55:26
证明一个文法具有二义性我们需要掌握两个知识点。 1.语法分析树 定义很简单,就是把一个句型的推导写成树的形式,这种表示法就叫语法分析树,或者简称为语法树。大概是这个样子的 2.二义性 一个文法存在某个句子对应两棵不同的语法树,则称这个文法是二义的。也就是该句子有两个不同的最左(最右)推导。 ok,让我们 证明下列文法G(S)是二义的 S->Ac|aB A->ab B->bc 过程很简单就是自己定义一个句子,然后说明这个句子有两个语法树就可以了。 这里定义句子是abc,对应的两个语法树像这个样子 所以该文法是二义文法。 来源: CSDN 作者: 哆啦m梦 链接: https://blog.csdn.net/weixin_44162921/article/details/103481890

统计单词数

…衆ロ難τιáo~ 提交于 2019-12-11 16:53:12
统计单词数 题目描述 Problem H: 统计单词数 Time Limit: 1 Sec Memory Limit: 32 MB Submit: 10038 Solved: 4391 Description 给一个句子,统计这个句子中有多少个单词。单词可能包含大写字母、小写字母、数字和其他符号,单词之间用空白符或标点符号隔开。 Input 有多组数据,每个句子占一行,句子长度不超过1000个字符,到文件尾结束。 Output 每个句子对应一个整数,代表这个句子中有多少个单词,每个整数占一行 Sample Input Meep…meep! How are you? Sample Output 2 3 HINT Append Code 解题思路 问题的关键是怎样确定“出现一个新单词”。可以采取这样的方法:从第一个字符开始逐个字符进行检查,判断此字符是否是新单词的开头,如果是,就使变量num的值加一(用变量num统计单词数),最后得到的num值就是单词总数。 判断是否出现新单词,可以由是否有空格或标点符号出现来决定(连续的若干个空格或标点符号作为出现一次空格或标点符号,一行开头的空格不统计在内)。如果测出某一个字符为非空格或非标点符号,而它前面的字符是空格或标点符号,则表示“新的单词开始了”,此时使num(单词数)加一

NLTK包的常用总结

浪子不回头ぞ 提交于 2019-12-10 08:23:36
NLTK NLTK的全称是natural language toolkit,是一套基于python的自然语言处理工具集。 NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。 NLTK的安装 nltk的安装十分便捷,只需要pip就可以。 pip install nltk 在nltk中集成了语料与模型等的包管理器,通过在python解释器中执行 import nltk nltk . download ( ) from nltk . corpus import brown brown . words ( ) [ 'The' , 'Fulton' , 'County' , 'Grand' , 'Jury' , 'said' , . . . ] 一、NLTK进行分词 nltk . sent_tokenize ( text ) #对文本按照句子进行分割 nltk . word_tokenize ( sent ) #对句子进行分词 假设我们有如下的示例文本: Hello Adam , how are you ? I hope everything is going well . Today is a good day , see you dude . 为了将这个文本标记化为句子,我们可以使用句子标记器:

英语语法的想法

我们两清 提交于 2019-12-10 03:43:40
一直搞不懂英语的语法,今天就通过百度的知识和自己的理解整理一下语法知识,以弥补自己在英语写作中的语法错误问题。 先复制,在做具体的总结。 句子的主要成分有:主语、谓语、宾语、定语、补语、状语、表语 名词,动词,形容词,副词 1.主语: 主语(subject)常用名词或相当于名词的词担任,一般置于句首。 主语 是句子陈述的对象 名词、 代词 、数词、 动名词 、To do 不定式 、一个句子 都可以做 主语 。 (1).名词:这个常见 (2).代词:one ,she ,he (3).句子:相当于一个名词 2.定语: 定语是用来修饰、限定、说明名词或 代词 的品质与特征的。主要有形容词此外还有名词、代词、 数词 、 介词短语 、动词 不定式 (短语)、 分词 、 定语从句 或相当于形容词的词、短语或句子都可以作定语。汉语中常用‘……的’表示。定语和 中心语 之间是修饰和被修饰、限制和被限制的关系。在汉语中, 中心语 与定语二者之间有的需要用结构助词“的”,有的不需要,有的可要可不要。“的”是定语的标志。 定语就是修饰名词的东西。有名词,如人的什么什么 ,分词,很显然可以,但是什么是分词?具有动词和形容词特征的词。 以-ing,-ed,-d,-t,-en或-n结尾的英语动词性形容词,具有形容词功能,同时又表现各种动词性特点。 分词分为 现在分词 和 过去分词 两种 分词可以有自己的状语、

英语四级选词填空笔记

僤鯓⒐⒋嵵緔 提交于 2019-12-09 22:55:30
Ⅰ. 辨析所有选项的词性 1) 形容词(adj)后缀:-al -tive -able(能够做…) 2) 动词(n)后缀:-ate -fy 3) 名词后缀:-tion -th Ⅱ. 确定空格处词性 1) 动词 α) 名词前后都有动词 β) 一个句子有且只有一个谓语动词,n个连词连接n+1个谓语动词 γ) 一个完整的句子之后再有逗号,后面一般为非谓语动词短语 eg:"Tom finishes his homework. Tom starts to watch TV." 改为"Tom finishes his home work, starting to watch TV." δ) 非谓语动词三种形式:".v-ed(被动) ②.v-ing(主动) ③.to do" 2) 名词 α) 限定词之后形容词或名词修饰名词,反之亦然 # 限定词:(the, this, that, a, an, my, his, her, whose, what,...) β) 谓语动词前后有名词 γ) 介词后有名词或动名词(v-ing) #补充:as for since 在句子中充当介词或连词 充当连词时,后面跟完整句子,有谓语动词 3) 形容词 α) 名词前一般为形容词 β) 名词后也有可能跟形容词 eg1:表语形容词(alive, alone, alike, awake, asleep ,ill...)