语料库

国内语料库建设一览表

北慕城南 提交于 2020-04-08 08:26:11
http://blog.sina.com.cn/s/blog_4835e3000100a50l.html http://download.csdn.net/tag/%E8%AF%AD%E6%96%99%E5%BA%93/track_scores/1 (CSDN语料库) 英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大 大学英语学习者口语语料库 COLSEC (5万) 上海交大 香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学 中国英语专业语料库 CEME (148万) 南京大学 中国英语学习者口语语料库 SECCL (100万) 南京大学 国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大 硕士写作语料库 MWC (12万) 华中科技大学 平行语料库 汉英平行语料库 PCCE 北外 南大-国关平行语料库 南京大学 英汉文学作品语料库; 外研社 冯友兰《中国哲学史》汉英对照语料库 李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所 柏拉图(Plato)哲学名著《理想国》的双语语料库 英汉双语语料库(15万对) 中科院软件所 英汉双语语料库

重磅!「自然语言处理(NLP)」一文带你了解TF-IDF

纵饮孤独 提交于 2020-03-17 07:59:13
来源: AINLPer 微信公众号( 每日更新… ) 编辑: ShuYini 校稿: ShuYini 时间: 2020-03-12 引言     本文主要整理TF-IDF的基本内容,能够让你很快了解TF-IDF到底是什么,为什么会存在,以及其优缺点? 1、向量化特征缺失     在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,我们将下面4个短文本做了词频统计: corpus = [ "I come to China to travel" , "This is a car polupar in China" , "I love tea and Apple " , "The work is to write some papers in science" ]     不考虑停用词,处理后得到的词向量如下: [ [ 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0 ] [ 0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 ] [ 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 ] [ 0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1 ] ]     如果我们直接将统计词频后的19维特征做为文本分类的输入,会发现有一些问题。比如第一个文本,我们发现"come

一、认识NLP

泄露秘密 提交于 2020-03-17 01:46:34
NLP定义: NLP的challenge(挑战)是:语言有多种意思 解决方法:看句子的context(上下文) 机器翻译系统: 传统方法:构建语料库,输入一句话,想看这句话的意思,一个单词一个单词从语料库找意思,用统计分析方法求概率 传统方法的缺点: 可能出现语料库没有这个单词的情况(out of vocabulary)—(oov) 有一词多义的情况,不好区分意思 输出的语序不一定正确 解决方法: Mixed Word/Character Model: 把所有的oov分词,拆成字符,比如比如 Jessica,变成 J,e,s,s,i,c,a。其中 是Begin,Middle,End的标记。这样处理的好处就是消灭了全部的OOV。坏处就是文本序列变得非常长,对于性能敏感的系统,这是难以接受的维度增长 UNK处理 在训练数据充足的情况下,RNN模型可以轻松支持30k-80k的词表。在大多数情况下,扩大词表都是首选的方案 通过上下文分析一词多义的情况 对于输出的语序不对的情况,可以用语言模型进行判定,给定一个句子,判定从语法来看,最正确的概率 统计型机器翻译步骤 来源: CSDN 作者: 默默努力的人 链接: https://blog.csdn.net/weixin_43979941/article/details/104858052

集合语义空间提高动提取同义词能力

邮差的信 提交于 2020-03-17 01:24:43
集合语义空间提高动提取同义词能力 文章出发点:医学界需要统一医学文章的专用词语言,从而针对医学文本同义词提取精度有限的问题,进行提高同义词从其他语义关系中分离开的能力。 方法概括:(1)语料库预处理 (2)从两个语料库(和联合语料库)构建语义空间,(3)识别最有利的单个语料库(和联合语料库))组合,(4)识别最有利(不相交)的多语料组合,(5)单个语料库(包括联合语料库)和多个语料库组合的评估,(6)候选术语的后处理,和(7)频率阈值实验。 具体步骤: 运用材料:(1)临床语料库,包括健康记录的注释,和 (2)医学语料库,包括医学期刊文章 主要概念:RI随机索引:RI是LSA的增量,通过分配稀疏的、内部的和随机生成的d维索引向量来实现 给予某一术语静态的唯一表示值,为每个唯一术语分配相同维度d的初始空上下文向量。然后通过添加目标术语出现的上下文的(加权)索引向量,用上下文信息递增地填充上下文向量。 【然而LSA是什么呢】LSA是潜在语义分析,具体说来就是对一个大型的文档集合使用一个合理的维度建模,并将词和文档都表示到该空间,而将文档表示到此空间的过程就是SVD奇异值分解和降维的过程。 具体的做法是将词项文档矩阵做SVD分解,其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值

论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》

强颜欢笑 提交于 2020-03-05 19:45:28
《语言驱动的用于语码转换语言模型的并行数据增强》 论文地址: Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model 摘要 Code-Switch language modeling 语码转换语言模型面临两大挑战 data scarcity 数据不足 包含两种语言的扩展词词汇表 expanded vocabulary 本文提出的计算方法 使用 Matrix Language Frame theory 生成 人工语码转换数据 synthetic code-switch data 缓解了数据不足问题(data scarcity) 使用 增强的并行数据augmented parallel data 补充 真实的语码转换数据real code-switch data 使用人工数据 synthetic data 预训练语言模型 效果 在 实际语码转换数据减少2.5倍 的情况下,预训练语言模型的 性能与vanilla models相当。 使用 人工语码转换数据 synthetic code-switch data 预训练,使用 真实的语码转换数据real code-switch data 进行微调,得到的基于RNN的语言模型的 困惑度perplexity 明显比只用 真实的语码转换数据

TF-IDF算法介绍及实现

时间秒杀一切 提交于 2020-03-01 02:26:52
目录 1、TF-IDF算法介绍 (1)TF是词频(Term Frequency) (2) IDF是逆向文件频率(Inverse Document Frequency) (3)TF-IDF实际上是:TF * IDF 2、TF-IDF应用 3、Python3实现TF-IDF算法 4、NLTK实现TF-IDF算法 5、Sklearn实现TF-IDF算法 1、TF-IDF算法介绍 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 (1)TF是词频(Term Frequency) 词频(TF)表示词条(关键字)在文本中出现的频率。 这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。 公式: 即: 其中 ni,j 是该词在文件 dj 中出现的次数

学习英语方法

丶灬走出姿态 提交于 2020-02-18 08:44:32
背诵单词方法 场景一:日常场景 根据每天的日常生活,说单词或背单词或者是场景复述 场景二:电影美剧 多看美剧,多看字幕、多听 场景三:新闻外刊 浏览外国新闻网站:比如华盛顿邮报等 场景四:语料库 记忆单词加语料库:美国当代英语语料库 场景五:词根词缀 记忆词根(情感,方向),词缀 来源: CSDN 作者: uncle_ll 链接: https://blog.csdn.net/uncle_ll/article/details/104366052

语言模型——深度学习入门动手

北慕城南 提交于 2020-02-15 09:44:54
语言模型 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 T 的词的序列 w1,w2,…,wT ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: P(w1,w2,…,wT). 本节我们介绍基于统计的语言模型,主要是 n 元语法( n -gram)。在后续内容中,我们将会介绍基于神经网络的语言模型。 语言模型 假设序列 w1,w2,…,wT 中的每个词是依次生成的,我们有 P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt−1)=P(w1)P(w2∣w1)⋯P(wT∣w1w2⋯wT−1) 例如,一段含有4个词的文本序列的概率 P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3). 语言模型的参数就是词的概率以及给定前几个词情况下的条件概率。设训练数据集为一个大型文本语料库,如维基百科的所有条目,词的概率可以通过该词在训练数据集中的相对词频来计算,例如, w1 的概率可以计算为: P^(w1)=n(w1)n 其中 n(w1) 为语料库中以 w1 作为第一个词的文本的数量, n 为语料库中文本的总数量。 类似的,给定 w1 情况下, w2 的条件概率可以计算为: P^(w2∣w1)=n(w1,w2)n(w1) 其中 n(w1,w2) 为语料库中以 w1 作为第一个词, w2 作为第二个词的文本的数量

文本预处理、语言模型、循环神经网络基础

风流意气都作罢 提交于 2020-02-14 22:50:51
文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 1.读入文本 2.分词 3.建立字典,将每个词映射到一个唯一的索引(index) 4.将文本从词的序列转换为索引的序列,方便输入模型 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 T 的词的序列 w1,w2,…,wT ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: P(w1,w2,…,wT). 本节我们介绍基于统计的语言模型,主要是 n 元语法( n -gram)。在后续内容中,我们将会介绍基于神经网络的语言模型。 语言模型 假设序列 w1,w2,…,wT 中的每个词是依次生成的,我们有 P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt−1)=P(w1)P(w2∣w1)⋯P(wT∣w1w2⋯wT−1) 例如,一段含有4个词的文本序列的概率 P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3). 语言模型的参数就是词的概率以及给定前几个词情况下的条件概率。设训练数据集为一个大型文本语料库,如维基百科的所有条目,词的概率可以通过该词在训练数据集中的相对词频来计算,例如, w1 的概率可以计算为: P^(w1)=n(w1)n 其中 n(w1) 为语料库中以 w1

8.HanLP实现--命名实体识别

若如初见. 提交于 2020-02-13 02:00:23
文章目录 8. 命名实体识别 8.1 概述 8.2 基于隐马尔可夫模型序列标注的命名实体识别 8.3 基于感知机序列标注的命名实体识别 8.4 基于条件随机场序列标注的命名实体识别 8.5 命名实体识别标准化评测 8.6 自定义领域命名实体识别 8.7 GitHub 笔记转载于GitHub项目 : https://github.com/NLP-LOVE/Introduction-NLP 8. 命名实体识别 8.1 概述 命名实体 文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等,称为 命名实体 。具有以下共性: 数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。 构词灵活。比如中国工商银行,既可以称为工商银行,也可以简称工行。 类别模糊。有一些地名本身就是机构名,比如“国家博物馆” 命名实体识别 识别出句子中命名实体的边界与类别的任务称为 命名实体识别 。由于上述难点,命名实体识别也是一个统计为主、规则为辅的任务。 对于规则性较强的命名实体,比如网址、E-mail、IBSN、商品编号等,完全可以通过正则表达式处理,未匹配上的片段交给统计模型处理。 命名实体识别也可以转化为一个序列标注问题。具体做法是将命名实体识别附着到{B,M,E,S}标签,比如, 构成地名的单词标注为“B/ME/S- 地名”,以此类推。对于那些命名实体边界之外的单词