语料库

Gensim学习笔记-2.主题与变换

匿名 (未验证) 提交于 2019-12-03 00:43:02
from pprint import pprint import warnings warnings . filterwarnings ( action = 'ignore' , category = UserWarning , module = 'gensim' ) from gensim import corpora stopWordsList = set ( 'for a of the and to in' . split ()) with open ( './Data/mycorpus.txt' , encoding = 'utf-8' ) as f : texts = [[ word for word in line . lower (). split () if word not in stopWordsList ] for line in f ] dictionary = corpora . Dictionary . load ( './Data/sampleDict.dict' ) corpus = [ dictionary . doc2bow ( doc ) for doc in texts ] pprint ( corpus ) [[( 0 , 1 ), ( 1 , 1 ), ( 2 , 1 )], [( 0 , 1 ), ( 3 , 1 ), ( 4 , 1

NLTK详细知识介绍

左心房为你撑大大i 提交于 2019-11-29 06:15:38
目录 一、前言    python进行自然语言处理,有一些第三方库供大家使用: ·NLTK(Python自然语言工具包)用于诸如标记化、词形还原、词干化、解析、POS标注等任务。该库具有几乎所有NLP任务的工具。 ·Spacy是NLTK的主要竞争对手。这两个库可用于相同的任务。 ·Scikit-learn为机器学习提供了一个大型库。此外还提供了用于文本预处理的工具。 ·Gensim是一个主题和向量空间建模、文档集合相似性的工具包。 ·Pattern库的一般任务是充当Web挖掘模块。因此,它仅支持自然语言处理(NLP)作为辅助任务。 ·Polyglot是自然语言处理(NLP)的另一个Python工具包。它不是很受欢迎,但也可以用于各种NLP任务。 NLTK是一个高效的Python构建的平台,用来处理人类自然语言数据。它提供了易于使用的接口,通过这些接口可以访问 超过50个语料库和词汇资源 (如WordNet),还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库,以及工业级NLP库的封装器和一个活跃的 讨论论坛 。 二、NLTK模块 语言处理任务 NLTK模块 功能描述 获取和处理语料库 nltk.corpus 语料库和词典的标准化接口 字符串处理 nltk.tokenize, nltk.stem 分词,句子分解提取主干 搭配发现 nltk.collocations t

基于肺癌语料库的CRF模型

落花浮王杯 提交于 2019-11-27 07:16:51
目标:前两天老师给了我数据,让我构建一个CRF模型,并且用十折交叉验证计算出每一组数据的recall/precision/f1-score,最后用平均值加减标准差的形式展示。 过程:1.读取所有数据 2.训练CRF 我用80%做了训练集,20%做了测试集 因为采用的是已经标记过的肺癌语料库 所以把标记单独列出来了,用于后面PRF三个指标的计算 3.构建模型 4.十折交叉验证 from sklearn.model_selection import KFold#要引入KFold包 kf = KFold(n_splits=10)#十折 注意a和b的意思 这里的metrics.flat_classfication_report返回了一个string ,如图 至于咋写成标准差加减平均值 ,他返回的是string哇15551 ,我要怎么把每个指标的PRF值都分离出来(爆哭) 在某个机智学长的提示下 我打开了excel 把数据搞进去 用excel计算了平均值和方差嘻嘻嘻 嗷对还有代码用到的库 import os import numpy as np import pandas as pd import xlrd import sklearn_crfsuite from sklearn.model_selection import RandomizedSearchCV from sklearn

当前自然语言处理发展的四个特点

喜夏-厌秋 提交于 2019-11-27 00:08:37
二十一世纪以来,由于国际互联网的普及,自然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来帮助他们获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视自然语言处理的研究,投入了大量的人力、物力和财力。 我认为,当前国外自然语言处理研究有四个显著的特点: 第一, 基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。 在过去的四十多年中,从事自然语言处理系统开发的绝大多数学者,基本上都采用基于规则的理性主义方法,这种方法的哲学基础是逻辑实证主义,他们认为,智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此,思维就是符号运算。 著名语言学家J. A. Fodor在《Representations》 [1] 一书(MIT Press, 1980)中说:“只要我们认为心理过程是计算过程(因此是由表征式定义的形式操作),那么,除了将心灵看作别的之外,还自然会把它看作一种计算机。也就是说,我们会认为,假设的计算过程包含哪些符号操作,心灵也就进行哪些符号操作。因此,我们可以大致上认为,心理操作跟图灵机的操作十分类似。”Fodor的这种说法代表了自然语言处理中的基于规则(符号操作