句子

英语句子

大憨熊 提交于 2019-12-09 14:06:22
1、五种基本句型: 主谓句型:主语+不及物动词 主系表句型:主语+系动词+表语 主谓宾句型:主语+及物动词+宾语 主谓双宾句型:主语+及物动词+间宾(人)+直宾(物) 主谓宾补句型:主语+及物动词+宾语+补语 2、句子种类(按结构) 简单句:只有一个主语或并列主语+一个谓语或并列谓语 并列句:把两个或几个简单句用并列连词或分号连接起来,就是一个并列句。常用的并列连词如:平行并列连词and、both...and...、not only...but also...、neither...nor...,转折并列连词but、while、yet,因果并列连词for、so,选择并列连词or 复合句:由主句和从句构成。主句是一个完整的句子,它可以独立存在;从句是一个不完整的句子,它必须和一个主句连用,不能独立存在。从句主要分为三大类:名词性从句(主语从句、宾语从句、表语从句、同位语从句)、形容词性从句(定语从句)、副词性从句(状语从句) 3、从句概念 1)名词性从句 常用关联词:that,whether,if,as if,as though,who,whose,which,how,when,where,why,what,whatever,whoever,wherever 主语从句:在主句中做主语,相当于名词,一般在谓语之前,也可用it作形式主语,主语从句放在主句之后。 表语从句:在主句中做表语

sklearn.feature_extraction.text 的TfidfVectorizer函数

核能气质少年 提交于 2019-12-06 21:24:20
TfidfVectorizer函数 主要用于,将文档(句子)等通过 tf-idf值来进行表示,也就是用一个tf-idf值的矩阵来表示文档(句子也可)。 from sklearn.feature_extraction.text import TfidfVectorizer 1. 其函数源代码很长,这里只展示: class TfidfVectorizer(CountVectorizer): """Convert a collection of raw documents to a matrix of TF-IDF features. Equivalent to CountVectorizer followed by TfidfTransformer. Read more in the :ref:`User Guide <text_feature_extraction>`. 其参数主要有: input,encoding,decode_error,strip_accents,analyzer,preprocessor,tokenizer,ngram_range,stop_words,lowercase,token_pattern,max_df,min_df,max_features,vocabulary,binary,dtype,norm,use_idf,smooth_idf

16 中文句法依存分析

ぃ、小莉子 提交于 2019-12-06 10:23:19
句法分析是自然语言处理(NLP)中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容:一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。 句法分析被用在很多场景中,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。 语法体系 句法分析需要遵循某一语法体系,根据该体系的语法确定语法树的表示形式,我们看下面这个句子: 西门子将努力参与中国的三峡工程建设。 用可视化的工具 Stanford Parser 来看看句法分析的整个过程: 短语结构树由终节点、非终结点以及短语标记三部分组成。句子分裂的语法规则为若干终结点构成一个短语,作为非终结点参与下一次规约,直至结束。如下图: 句法分析技术 依存句法分析 依存句法 依存句法(Dependency Parsing, DP)通过分析语言单位内成分之间的依存关系揭示其句法结构。 直观来讲,依存句法的目的在于分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。 依存句法的结构没有非终结点,词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词,也叫支配词,另一个叫修饰词,也叫从属词。

基于语法树和概率的AI模型

牧云@^-^@ 提交于 2019-12-06 08:50:42
语法树是句子结构的图形表示,它代表了句子的推导结果,有利于理解句子语法结构的层次。简单说,语法树就是按照某一规则进行推导时所形成的树。 有了语法树,我们就可以根据其规则自动生成语句,但是语法树本身是死的,在日常生活中我们会有很多并不符合语法树的情况,比如: 我们转换一种思想,我不在意一句话对与不对,而是判断这句话出现概率的高低,如果一句话出现的最终概率越接近 1 ,那么说明它越容易出现,反之亦然。这里我们就需要语言模型: N-gram ,该模型基于这样一种假设,第 N 个词的出现只与前面 N-1 个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。 我们可以看出其实 1-gram 模型就是个词汇单独出现的概率累乘,与我们的初衷不符合,相反 N 值越大,其实模型应该越好,不过由于计算量的缘故,实际中我们常用的是 2-gram ( Bi-Gram )与 3-gram ( Tri-Gram ),当 N>=4 时,实在是太慢了。 2-gram :需要统计句子中词汇与前一词汇同时出现的次数,最后累乘 3-gram :需要统计句子中词汇与前两词汇同时出现的次数,最后累乘 1 BaseDir = os.path.dirname(os.path.dirname(os.path.abspath(__file__))) 2 3 file_path = f"{BaseDir}/day1

英语学习(1):句子成分

▼魔方 西西 提交于 2019-12-05 09:55:11
1、主语 名词或者代词性质,典型的主谓宾结构。出现一下四种情况,就是典型的主谓宾结构。Be动词、动词的原形、动词的第三人称单数、动词过去式。 it is at night that the airfield comes to life is be动词 airfield第三人称单数 两个句子 典型的一个主句从句 2、谓语 动词 3、宾语 名词或者代词性质 4、定语 定语:形容词 后置定语就是:形容词放名词后面 定语从句就是:一整个句子就是形容词 翻译全部放到名词前面 5、状语 示例:在一个凉爽的下午,我在给大家讲解语法的系列课程 状语=副词,表示动作发生的状态 时间状语:动作发生的时间 目的状语:动作发生的目的 地点状语:动作发生的地点 原因状语:动作发生的原因 伴随状语:动作发生的同时又发生另外一个同时 6、表语 表语:对主语或者宾语的一种补充,放在系动词之后 you are smart you are cute you are beautiful he is a teacher 宾语和谓语相联系,表语和主语相联系,表明主语的状态 7、同位语 同位语:相同位置的语言,主要是描述名称 Peter,哈佛大学校长,毕业于某年。 微软,世界上最大的软件公司。 来源: https://www.cnblogs.com/xiaofeiyang/p/11920508.html

论文阅读 | TextBugger: Generating Adversarial Text Against Real-world Applications

☆樱花仙子☆ 提交于 2019-12-03 21:13:37
NDSS https://arxiv.org/abs/1812.05271 摘要中的创新点确实是对抗攻击中值得考虑的点: 1. effective 2. evasive recognized by human readers 3. efficient 在IMDB数据集上取得100%的成功率。 最后有讨论可能的防御机制,可以重点看下能不能做这相关的工作。 TEXTBUGGER: 白盒: 通过 雅可比矩阵 找到最重要的单词。 https://jingyan.baidu.com/article/cb5d6105c661bc005c2fe024.html (梯度vs Jacobian矩阵vs Hessian矩阵) (和梯度的方法差不多) 2-5步:计算重要性,对单词排序。 6-14步:生成bugs:考虑视觉和语义的相似性;考虑character-level & word-level character-level:看起来就像是简单的拼写错误。目的:把未知词汇映射到未知embedding word-level:最近邻搜索。 作者发现在一些词嵌入模型中(如word2vec),“worst”和“better”等语义相反的词在文本中具有高度的句法相似性,因此“better”被认为是“worst”的最近邻。 以上显然是不合理的,很容易被人察觉。 因此,作者使用了 语义保留技术 ,即

A Convolutional Neural Network for Modelling Sentences之每日一篇

人走茶凉 提交于 2019-12-03 11:04:17
一.介绍 算法实现:https://github.com/lc222/Dynamic-CNN-Sentence-Classification-TF 这篇论文介绍了一种DCNN对 句子语义建模 ,时间有点久远了就是经典回来再学习一下,代码实现一下。 模型采用动态K-max pooling取出得分top k的特征值,这里区别 一下与max pooling 的区别,能处理不同的句子, 不依赖解析树 ,而word2vec是依赖与huffman树的,词向量 方法进行文本分类是依赖解析树的,所有词为叶子节点,从根到叶子节点的路径编码为词向量的表示形式。 二.模型的特点 1 保留了句子中 词序信息和词语之间的相对位置 ; 2 宽卷积的结果是传统卷积的一个扩展 ,某种意义上, 也是n-gram的一个扩展 ,更加考虑句子边缘信息; 3 模型不需要任何的先验知识,例如句法依存树等,并且模型 考虑了句子中相隔较远的词语之间的语义信息。 上图就是一个动态CNN处理输入句子的过程,卷积filters的宽度是2和3,通过动态pooling,可以在高层获取句子中相离较远词语间的联系。 三.下面给出DCNN模型及介绍: 模型具体流程操作可总结为5部分: 1:宽卷卷部分: 宽卷积的输出使feature map 的宽度更宽,类似n-gram。 2:k-max pooling: 给定一个K值和一个序列P

jieba分词原理-DAG(NO HMM)

a 夏天 提交于 2019-12-03 10:00:59
最近公司在做一个推荐系统,让我给论坛上的帖子找关键字,当时给我说让我用jieba分词,我周末回去看了看,感觉不错,还学习了一下具体的原理 首先,通过正则表达式,将文章内容切分,形成一个句子数组,这个比较好理解 然后构造出句子的有向无环图(DAG) def get_DAG(self, sentence): self.check_initialized() DAG = {} N = len(sentence) for k in xrange(N): tmplist = [] i = k frag = sentence[k] while i < N and frag in self.FREQ:#对每一个字从这个字开始搜索成词位置 if self.FREQ[frag]: tmplist.append(i)#如果可以成词就加入到DAG中 i += 1 frag = sentence[k:i + 1] if not tmplist: tmplist.append(k)#如果找不到词语,就将自己加入DAG DAG[k] = tmplist return DAG 对句子中的每个字进行分析,从右边一位开始,看sentence[k:i+1]这个词语是否在预设的字典中,这个字典保存了常用的词语(和词语的一部分,但权重为0)和其权重.如果有,并且如果字典中的这个词的权值不等于0

GRE阅读速度慢?这一招帮你解决!

蹲街弑〆低调 提交于 2019-12-03 04:20:53
在 GRE阅读 的教学中,经常听到学生抱怨阅读时间太紧张,文章读不完没时间做题。GRE阅读部分对考生的要求是用18分钟左右完成10道题目以及对应的3-4篇文章阅读,对于母语非英语的考生的确是不小的挑战。 那么除了提升语言功底外,还有没有方法帮助我们提升阅读速度呢? 答案是肯定的。今天介绍一种方法帮助大家以正确的方式打开GRE文章,即利用句间句内的逻辑关系预判句子信息,提升阅读速度!首先GRE文章中出现的逻辑关系大致可划分为 顺承和转折两种 , 顺承表示语义方向一致,转折表示语义方向相反。 那么我们可以利用句子之间和句子内部出现的逻辑转折词帮助我们有效预判接下来会出现的内容,从而加快阅读速度。 我们以GRE考试中出现过的一篇文章的前两句为例: ①A critical consensus has emerged that Mary McCarthy will be remembered primarily as an essayist rather than as a novelist. ②But despite her formidable gifts as a polemical and discursive writer, and for all her reputation as an intellectual who sacrificed feeling to

语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率)

匿名 (未验证) 提交于 2019-12-03 00:19:01
实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)” 为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。 公式为: Substitution――替换 Deletion――删除 Insertion――插入 N――单词数目 SER SER,SER表述为句子中如果有一个词识别错误,那么这个句子被认为识别错误,句子识别错误的的个数,除以总的句子个数即为SER 其计算公式如下所示: WER可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。 因为有插入词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。 站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”,即“识别(正确)率等于96%”这种,实际工作中,这个应该指向“SER(句错误率,Sentence Error Rate)”,即“句子识别错误的个数/总的句子个数”。不过据说在实际工作中,一般句错误率是字错误率的2~3倍,所以可能就不怎么看了。 AI产品经理需要了解的语音交互评价指标 语音识别评估标准-WER 文章来源: 语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率)