nlp

NLP:1-使用NLTK了解语料

倾然丶 夕夏残阳落幕 提交于 2020-03-01 18:45:59
本章要点: 使用NLTK了解语料 导入语料 NLTK库 0,本地语料转Text类 1,搜索文本 文章搜索:concordance() 相似词搜索:similar() 上下文搜索:common_contexts() 可视化词频:dispersion_plot() 2,词汇计数 长度:len() 去重:set() 排序:sorted(set(text)) 一个词的个数:count() 3,词频分布 FreqDist() 词频分布类中定义的函数 4,词语搭配和双联词 安装nltk库及语料 1,安装nltk库 2,安装nltk语料库 使用NLTK了解语料 导入语料 with open ( "./text.txt" ) as f : text = f . read ( ) print ( type ( text ) ) print ( text [ : 200 ] ) <class 'str'> [ Moby Dick by Herman Melville 1851 ] ETYMOLOGY . ( Supplied by a Late Consumptive Usher to a Grammar School ) The pale Usher -- threadbare in coat , heart , body , and brain ; I see him now . He was

深度学习在NLP领域的发展(一)

醉酒当歌 提交于 2020-02-29 22:20:44
Deep Learning在NLP领域的发展 三个阶段: Word Embedding Word2Vec GloVe RNN改进和扩展 LSTM/GRU Seq2Seq Attention/Self-Attention Contextual Word Embedding ELMO OpenAI GPT BERT 第一个阶段主要是Word Embedding包括word2vec和glove,可以通过无监督的预料学习到一个比较好的词向量,可以把一个词向量用于下游的任务从而提高模型的泛化能力。 第二个阶段主要是RNN的改进和扩展,包括LSTM和GRU对原始答案的改进,包括两个RNN组成的Seq2Seq能解决nlp里面的大部分问题,比如机器翻译、问答、摘要。Attention/Self-Attention是对Seq2Seq的进一步改进。 第三个阶段是考虑上下文的word embedding。 语言模型(nlp基本任务) 语言建模是根据给定的前一个单词来预测文本中的下一个单词的任务,预测句子概率。 任务:给定一个句子w,其中包括k个词,w1到wk。需要计算这个句子的概率,此处使用条件概率把他分解成条件概率乘积的形式:比如说先计算w1 的概率,然后在给定w1的情况下计算w2的概率,然后给定w1和w2来计算w3的概率,以及给定w1到wk-1来计算wk 的概率。在深度学习之前主流的语言模型是n

达观招聘丨听说你想来做人工智能了

落花浮王杯 提交于 2020-02-26 05:30:13
达观数据招人啦! 面向 北京 、 上海 、 深圳 、 成都 四个地区 提供 人工智能 、 算法 、 产品 、 销售 等多类岗位 毕业多年, 你的状态还好吗? 是否忧虑被甩在时代的边缘? 是否担心 被机器取代? 是否不安现状、跃跃欲试? 来吧, 选择对的行业,与优秀的人一起共事, 与我们一起走在 时代的风口 上, 从事当下最有前景的 人工智能 行业 深耕 机器学习 、 数据挖掘 、 自然语言处理技术 达观数据 在这等你 招聘岗位 1、大客户销售经理 (上海/深圳/北京/成都) 1.面向大型企业级客户,独立操作NLP、人工智能算法相关项目和产品的销售全流程,通过顾问式销售, 呈现达观产品和服务的价值; 2.根据公司市场战略开拓客户,寻找销售机会,进行需求引导与沟通,推动销售项目的实施、产品应用的落地; 3.达成销售业绩,完成月度、季度和年度销售指标; 4.善于进行销售各个阶段的精细化管理,对项目进行有效推进; 5.及时收集客户的反馈,竞争对手的市场动态,协助公司制定对应市场策略。 岗位要求: 1.本科及以上学历; 2.3年以上销售经验,有IT咨询/B2B软件/大数据/人工智能类大型项目或产品的销售经验, 在传统企业、金融机构、科技制造业、运营商、法律、政府等至少一个垂直行业有积累; 3.具备良好产品演示、销售技巧、谈判能力和内外部资源协调能力,执行力强; 4

快速了解掌握中文自然语言处理

岁酱吖の 提交于 2020-02-26 02:43:20
NLP是什么 在计算机领域, NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言。这包括,既要能让计算机理解自然语言文本的意义,也能以自然语言文本来表达给定的深层的意图、思想等。所以,这项技术往往体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了理解自然语言的能力时,机器才算实现了真正的智能。但是,由于中文词语是由汉字千变万化组成的,所以中文领域的「自然语言处理」显得尤为复杂。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。 专注于「自然语言处理」领域多年, NLP 的技术和服务一直伴随着大快的发展而不断进步。从自动翻译、情报检索、自动标引、自动文摘、自动写故事小说等领域,都可以用我们的工具类DKNLPBase来处理,NLP 技术已不再单纯的停留在概念层面,而是逐步***并成功应用在大快的各个领域中。 为什么需要NLP 举个例子,日常生活中,我们总会碰到一些不知道怎么读的生僻字,

NLP文本标注工具与平台(数据标注公司)

天大地大妈咪最大 提交于 2020-02-26 02:43:11
最近在做NLP相关项目,包括句法分析、情感分析等,有大量数据需要标注。我评估了几个文本标注工具,也接触了几家数据标注公司和平台,总结如下,供各位参考。 文本标注平台(标注外包公司) 数据标注公司的工作比较多样,文本数据标注是最基础的,另外语音、图片、视频标注也都可以做。目前这个行业良莠不齐,有的平台技术实力强,有品牌背景,比如京东众智、百度众包,数据保密做得好。有的平台是专门做代理的,你的数据需求交给他,他转手就分包给下一层。下面介绍几个平台,也综合了其他博主的一些意见,如下: 京东众智 标注质量比较高,项目交付准时,数据隔离方案可以不出自己的服务器完成标注,比较重视客户的数据安全。也提供私有化部署服务。 百度众测 标注能力比较广泛,百度进入标注行业比较久,积累了较多的众包用户。不过我个人不看好众包模式,因为质量比较难把控。 figure-eight 国外知名的数据标注平台,国外好多大公司都与它有合作。需求方可以自行配置标注工具和相应的label,直接在平台上发任务,没有客户经理沟通…这可能对国内客户不太友好。 文本标注工具(开源) Prodigy   Website: https://prodi.gy/docs/   Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning DeepDive

深度学习、机器学习与NLP的前世今生

十年热恋 提交于 2020-02-26 02:43:00
随着深度学习的发展,自然语言处理领域的难题也得到了不断突破,AlphaGo项目的主要负责人David Silver曾说“深度学习 (DL)+ 强化学习 (RL) = 人工智能 (AI)”。目前深度学习在自然语言处理上主要有哪些应用?在工程实践中是否会有哪些瓶颈?以下内容是根据达观数据联合创始人高翔在《深度学习与文本智能处理》直播的总结。 一、为什么做文本挖掘 什么是NLP?简单来说: NLP的目的是让机器能够理解人类的语言,是人和机器进行交流的技术 。它应用在我们生活中,像:智能问答、机器翻译、文本分类、文本摘要,这项技术在慢慢影响我们的生活。 NLP的发展历史非常之久,计算机发明之后,就有以机器翻译为开端做早期的NLP尝试,但早期做得不是很成功。直到上个世纪八十年代,大部分自然语言处理系统还是基于人工规则的方式,使用规则引擎或者规则系统来做问答、翻译等功能。 第一次突破是上个世纪九十年代,有了统计机器学习的技术,并且建设了很多优质的语料库之后,统计模型使NLP技术有了较大的革新。接下来的发展基本还是基于这样传统的机器学习的技术。从2006年深度学习开始,包括现在图像上取得非常成功的进步之后,已经对NLP领域领域影响非常大。 达观划分的NLP技术层次 当年上小学时有一本书叫《字词句篇与达标训练》,里面讲了字、词、句、篇,我们开始学写字,词是最基础的一级

NLP AI人工智能客服会颠覆传统人工客服吗?恐怕你对NLP有什么误解

青春壹個敷衍的年華 提交于 2020-02-25 19:14:56
近年随着人工智能NLP方向的不断发展,智能客服逐渐代替传统客服将会是一个大的趋势,但是,要全面代替,依然有巨大的挑战。 一、智能客服行业概述 1、背景 由于客服人员招人难、培训成本高、流动性大,不易管理, 而客服机器人可以全天24小时工作,还能通过实时数据反馈不断学习,企业有 足够的动力用客服机器人取代一部分人工客服。 通常客服是连接企业与客户的重要桥梁,极大地影响着企业的销售成果、品牌影响及市场地位。客服人员培训成本高、流动性大、 客服效果难以把控且在服务过程中存在大量重复性的问题。如何提升售前转化,如何优化客服流程,如何从客服数据中发现企业业务问题等, 都是各类大企业面临的普遍问题。 2、目标 基于以上背景,研究人员们想通过科学技术在某些固定场景下,完成重复问题的回答,缓解人工客服人员的压力,进而节约成本。 3、我国客服软件的发展历程 客户服务的概念来源于美国,早是在1956年由泛美航空公司推出客服中 心,用于客户机票预订。90年代末,以呼叫中心为主的客服系统进入中国,而后随着互联网、移动 互联网、云计算、AI等技术的应用普及演化出多种形态。总的来说,我国客服软件市场大致经历了三个发展阶段:传统呼叫中心软件、 PC网页在线客服+传统客服软件、云客服+客服机器人的智能客服阶段。如下图: 二、智能客服行业发展现状分析 1、客服软件行业产业链 与大多企业信息化产业类似

read corpus of text files in spacy

荒凉一梦 提交于 2020-02-24 08:45:09
问题 All the examples that I see for using spacy just read in a single text file (that is small in size). How does one load a corpus of text files into spacy? I can do this with textacy by pickling all the text in the corpus: docs = textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en') for doc in docs: print(doc) But I am not clear as to how to use this generator object (docs) for further analysis. Also, I would rather use spacy, not textacy. spacy also fails to read in a single

read corpus of text files in spacy

谁都会走 提交于 2020-02-24 08:44:09
问题 All the examples that I see for using spacy just read in a single text file (that is small in size). How does one load a corpus of text files into spacy? I can do this with textacy by pickling all the text in the corpus: docs = textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en') for doc in docs: print(doc) But I am not clear as to how to use this generator object (docs) for further analysis. Also, I would rather use spacy, not textacy. spacy also fails to read in a single

How to speed up spaCy lemmatization?

瘦欲@ 提交于 2020-02-24 05:10:46
问题 I'm using spaCy (version 2.0.11) for lemmatization in the first step of my NLP pipeline but unfortunately it's taking a verrry long time. It is clearly the slowest part of my processing pipeline and I want to know if there are improvements I could be making. I am using a pipeline as: nlp.pipe(docs_generator, batch_size=200, n_threads=6, disable=['ner']) on a 8 core machine, and I have verified that the machine is using all the cores. On a corpus of about 3 million short texts totaling almost