nlp

【NLP CS224N笔记】Lecture 2 - Word Vector Representations: word2vec

为君一笑 提交于 2020-02-16 06:15:04
I. Word meaning Meaning 的定义有很多种,其中有: the idea that is represented by a word,phrase,etc. the idea that a person wants to express by using words, signs, etc. 1.Discrete representation 那么在计算机中是如何获取一个word的meaning的呢?常见的解决办法是使用像 WordNet 之类的数据集,它包含了同义词(synonym)组和上位词(hypernyms)组。这种表示方法属于 Discrete representation 上位词(hypernym) ,指概念上外延更广的主题词。 例如:”花”是”鲜花”的上位词,”植物”是”花”的上位词,”音乐”是”mp3”的上位词。上位词是相对某主题词的,也有它自己的等同词、上位词、下位词、同类词。 但是类似于WordNet的数据集存在如下缺点: 尽管存储的词条较为丰富,但是 词与词之间缺少细微的差别 。例如 proficient 只是 good 的同义词,但是二者却存在一些差别。 缺少新的词汇,例如Dama(大妈)这种非常fashion的词汇很难及时地更新。 对词的定义较为主观,因为都需要人工提前设定。因此也需要大量的人力去维护这个数据集。 很难计算词之间的相似性。

语音识别开放平台调研以及主要技术

我与影子孤独终老i 提交于 2020-02-15 22:28:50
   语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。    目前的语音开放平台有: 百度DuerOS开放平台, 阿里AliGenie语音开放平台, 腾讯云小微语音开放平台,科大讯飞,思必驰的DUI,云知声等等, 目前我们公司采用的是科大讯飞和阿里的语音开发平台。   AIUI 是科大讯飞2015年推出的一套以语音为核心的人机交互解决方案,意在使人机交互中的计算机能够快速具备能听会说,能理解会思考的能力。搭载了 AIUI 的智能硬件可以轻松实现查询天气、播放音视频资源、设置闹钟以及控制智能家居等能力。AIUI 的语义理解不仅提供了基本的问答,还提供了一套开发任务型对话的解决方案,开发者可以通过在平台编写自定义技能,实现自身业务的语义理解。实现诸如商场导购、自助点菜、智能客服等功能。   相信大家在生活中也使用过这里所说的 AIUI,就是你手机上的语音助手,你可以跟他聊天,可以用语音对话的方式,去查询今天的天气,去导航,去听新闻等等

浅谈机器学习的职业发展方向

天涯浪子 提交于 2020-02-13 21:13:36
一、机器学习相关的公司分析 1、大的有师傅的公司 这类公司主要是百度,阿里和腾讯。共同的特点是数据很大,机器学习的团队比较庞大,一般进去的同学都可以有师傅带着学习,进步会比较快。 但是三个公司的特点也有所不同。 百度是我认为在业务和技术之间匹配的最好,并且从基础到应用搭配的最好的公司。机器学习方面的能力对于百度的广告,搜索,移动搜索,LBS,应用分发,移动音乐,移动阅读,移动新闻,图片搜索,语音输入,浏览器,视频等所有业务都非常重要;而百度也非常重视机器学习团队的搭建。目前在产品方面的表现也非常不错。如果近期加入的团队一旦在基础研究以及产品化方面有巨大突破的话,百度的各个核心产品都可能大大的超出其他公司的产品。 百度的机器学习人才的需求种类最宽。 阿里目前的机器学习人才主要用在业务挖掘,广告和推荐方面。和阿里的业务非常的匹配;根据IPO公告,以及近期的动作,阿里未来的业务发展方向主要是电商业务的区域扩张(向下是向县城扩张,向上是跨国业务的发展)以及产品品类的扩张(从实物产品的电商向服务,金融方向的扩张。)从这种趋势来看,未来阿里的机器学习人才需求还是以业务挖掘,广告和推荐方面的人才需求为主(图像处理和NLP作为feutrue的提供者,也有需求)。 腾讯公司过去的主要业务是建立在社交网络之上的游戏,互联网增值服务(会员和道具之类的),广告等。根据年报

8.HanLP实现--命名实体识别

若如初见. 提交于 2020-02-13 02:00:23
文章目录 8. 命名实体识别 8.1 概述 8.2 基于隐马尔可夫模型序列标注的命名实体识别 8.3 基于感知机序列标注的命名实体识别 8.4 基于条件随机场序列标注的命名实体识别 8.5 命名实体识别标准化评测 8.6 自定义领域命名实体识别 8.7 GitHub 笔记转载于GitHub项目 : https://github.com/NLP-LOVE/Introduction-NLP 8. 命名实体识别 8.1 概述 命名实体 文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等,称为 命名实体 。具有以下共性: 数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。 构词灵活。比如中国工商银行,既可以称为工商银行,也可以简称工行。 类别模糊。有一些地名本身就是机构名,比如“国家博物馆” 命名实体识别 识别出句子中命名实体的边界与类别的任务称为 命名实体识别 。由于上述难点,命名实体识别也是一个统计为主、规则为辅的任务。 对于规则性较强的命名实体,比如网址、E-mail、IBSN、商品编号等,完全可以通过正则表达式处理,未匹配上的片段交给统计模型处理。 命名实体识别也可以转化为一个序列标注问题。具体做法是将命名实体识别附着到{B,M,E,S}标签,比如, 构成地名的单词标注为“B/ME/S- 地名”,以此类推。对于那些命名实体边界之外的单词

词向量概况

人盡茶涼 提交于 2020-02-07 06:54:23
Reference: http://licstar.net/archives/328 ( 比较综合的词向量研究现状分析) 序:为什么NLP在模式识别里面比较难? Licstar 的文章开头这么提到: 语言(词、句子、篇章等)属于人类认知过程中产生的高层认知抽象实体,而语音和图像属于较为底层的原始输入信号 。 语音、图像数据表达不需要特殊的编码,而且有天生的顺序性和关联性,近似的数字会被认为是近似特征。然而语言就麻烦了。 比如通俗的One-hot Representation就是一种不是很好的编码方式,编出来的数据比图像、语音的信号表达方式差很多。 还可以对比的是:统计数据。为什么数据挖掘模型简单?因为统计数据是人工build出来的,特征维度特低,是经过人脑这个大杀器提炼出来的超浓缩特征。 所以数据挖掘不需要深度学习啊,特征提取啊什么的,而且也没法这么做。大数据下,你跑个十几层的神经网络试试? 问题:语序不分 在NLP中,表达一个句子很简单。比如CV loves NLP,只要我们对所有单词建立一个词库。 那么CV loves NLP 可以表示成二进制编码[0,1,0,0,0,1,0,0,1],即出现的词是1,不出现为0。 这就是著名的One-hot Representation特征表示法,用它能完成NLP中的很多任务,然而就这么满足了? 那么问题来了,NLP loves CV和CV

Check skills of a classifier in scikit learn

跟風遠走 提交于 2020-02-06 10:08:04
问题 After training a classifier, I tried passing a few sentences to check if it is going to classify it correctly. During that testing the results are not appearing well. I suppose some variables are not correct. Explanation I have a dataframe called df that looks like this: news type 0 From: mathew <mathew@mantis.co.uk>\n Subject: ... alt.atheism 1 From: mathew <mathew@mantis.co.uk>\n Subject: ... alt.space 2 From: I3150101@dbstu1.rz.tu-bs.de (Benedikt Ro... alt.tech ... #each row in the news

NLP最佳入门与提升路线

本秂侑毒 提交于 2020-02-05 18:57:06
前言 对突如其来的长假感到惶恐和不安?紧盯2019-nCoV的最新消息却依然感觉很空虚?腰酸萎靡脖子僵甚至怀疑自己有点发烧? 这是长时间没学习的症状。 很久以前小夕推送的 深度学习入门资料推荐 和 机器学习与数学基础入门系列 收到到了很多小伙伴的好评和感谢,也因此一直有呼声希望小夕写一篇NLP方向的入门指导。于是,趁着这个长假,终于将这一篇拖了两年的稿子结了,希望能帮助到大家哦。 入门圣经 一如既往的还是那句话, 不要养成囤书却不看书的习惯 !!!入门阶段,精读 一到两本 经典书籍足矣。这里贴出来的书籍小夕在求学阶段都刷过,精读了这里的第1、2和4这三本(第二本由于太厚,到今天还没刷完),粗读了第3本,另外也粗刷了其他一些奇奇怪怪的书籍。 小夕这里吐血推荐前两本,第一本书适合 快速入门 ,第二本书则是 修炼内核 的圣经书。两本书非常互补,入门阶段足够了。另外也给出了其他两本参考书,有兴趣的小伙伴根据自身精力阅读。 1. neural network methods for natural language processing 豆瓣书评传送门: https://book.douban.com/subject/27032271/ 注:订阅号 【夕小瑶的卖萌屋】 后台回复关键字【 NLP入门书 】可获取PDF下载链接 2. speech and language processing

七月在线NLP笔试面试题知识点记录

早过忘川 提交于 2020-02-05 09:41:05
1、 Levenshtein https://www.jb51.net/article/98449.htm 2、LDA主题模型 https://blog.csdn.net/v_july_v/article/details/41209515 3、Lesk 算法 https://blog.csdn.net/chinachenyadong/article/details/19256051 4、HMM、CRF的区别 https://www.zhihu.com/question/53458773/answer/306485500 5、了解Google最新的模型bert么? https://www.julyedu.com/question/big/kp_id/30/ques_id/2753 这个是我见过说的最清晰的了,不会去说东道西,只介绍BERT的。 6、请详细说说Transformer https://www.julyedu.com/question/big/kp_id/30/ques_id/2912 7、Word2Vec中为什么使用负采样(negtive sample)? https://zhuanlan.zhihu.com/p/29488930 8、图解word2vec https://blog.csdn.net/longxinchen_ml/article/details

Python code non-stop when processing text documents

℡╲_俬逩灬. 提交于 2020-02-05 04:31:05
问题 This question was migrated from Cross Validated because it can be answered on Stack Overflow. Migrated 22 days ago . I'm running the following code to process a list of documents, basically it's just two for loops. from nltk.tokenize import TreebankWordTokenizer from gensim.models import KeyedVectors from nlpia.loaders import get_data word_vectors = get_data('w2v', limit=200000) def tokenize_and_vectorize(dataset): tokenizer = TreebankWordTokenizer() vectorized_data = [] expected = [] for