nlp

AI 快车道-PaddleNLP

梦想的初衷 提交于 2020-03-25 19:16:25
3 月,跳不动了?>>> 课程描述 理解人类的语言是搜索引擎对技术非常重要的需求之一,百度搜索经过近20年的技术应用和积累,沉淀出NLP多个任务下的工具和经验,PaddleNLP应运而生,也堪称中文自然语言处理工具的集大成者。 百度自然语言处理部主任架构师及其团队,将从匹配任务、分类任务、序列标注、序列生成四个NLP经典方向出发,结合PaddleNLP开源工具及预训练模型集,通过实战带你快速理解现实任务中的方案选择、实现方法、优化方法。 课程目标 适合深度学习一年以上,NLP方向的研发人员 课程列表 【PaddleNLP开源工具与预训练模型集全景介绍】 PaddleNLP开源工具与预训练模型集 PaddleNLP工具集全景介绍 PaddleNLP的代码结构和封装过程 在工业实践中积淀多年的中文NLP应用任务与模型 工业级预训练模型与数据集 【如何根据用户搜索语句推荐相似问题-匹配任务】 【如何在客服对话中识别客户情绪的好坏-分类任务】 【如何从快递单中抽取关键信息-序列标注任务】 【如何实现语言的中外翻译-序列生成任务】 参考资料 项目地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP 【AI快车道——企业深度学习实战营】致力于支持企业的深度学习技术快速应用,帮助正在面临转型困境、技术升级的企业技术骨干

word2vec gensim multiple languages

做~自己de王妃 提交于 2020-03-22 06:42:53
问题 This problem is going completely over my head. I am training a Word2Vec model using gensim. I have provided data in multiple languages i.e. English and Hindi. When I am trying to find the words closest to 'man', this is what I am getting: model.wv.most_similar(positive = ['man']) Out[14]: [('woman', 0.7380284070968628), ('lady', 0.6933152675628662), ('monk', 0.6662989258766174), ('guy', 0.6513140201568604), ('soldier', 0.6491742134094238), ('priest', 0.6440571546554565), ('farmer', 0

专访卡内基梅隆大学爱德华•霍威教授

狂风中的少年 提交于 2020-03-21 03:27:12
3 月,跳不动了?>>> 来源:《中国计算机学会通讯》2015年第3期《动态》 作者:周明 CCF自然语言处理和中文计算国际学术会议(NLPCC2014,http://tcci.ccf.org.cn/conference/2014/)于2014年12月8~9日在风景如画的深圳麒麟山庄举行。这个时节,北方已经进入寒冷的冬季,而这里却是风和日丽,草色青青。NLPCC 2014国际会议是中国在自然语言处理领域组织的级别最高、规模最大的国际学术会议。会议旨在增进自然语言处理和中文计算研究领域科研人员之间的交流、开拓视野、加强合作,促进相关研究领域的发展和深入。来自中国、美国、加拿大、新加坡、中国台湾、中国香港等国家和地区的近300位自然语言处理和中文计算研究领域的科研人员参加了本次会议,围绕“自然语言深度理解和知识整合”这一主题进行讨论。大会邀请新加坡国立大学黄伟道教授、美国卡内基梅隆大学爱德华•霍威教授、美国伊利诺伊大学厄巴纳-香槟分校刘兵教授做大会特邀报告。此外,来自多个国家的科研人员作了超过60个会议报告,全面介绍了相关研究领域的最新进展和未来趋势。在会议之前,作为本次会议的专题讨论会,还进行了为期三天的以“面向网络文本处理的统计学习方法”为主题的中国计算机学会《学科前沿讲习班》,涵盖了实体链接、统计机器学习、情感计算、信息检索、互联网经济和广告学等诸多热门领域。在会议期间

Training times for Spacy Entity Linking model

纵饮孤独 提交于 2020-03-18 05:58:29
问题 I'm trying to train a Spacy Entity Linking model using Wikidata and Wikipedia, using the scripts in https://github.com/explosion/spaCy/tree/master/bin/wiki_entity_linking. I've generated the KB and moved to training the model, but that is not done yet after more than a week. How long should that take normally? (I'm not using a GPU) Alternatively, is there a pretrained Wikidata entity linking model I can use? Thanks 回答1: As of October 2019, Spacy does not yet provide a pre-trained model. They

一、认识NLP

泄露秘密 提交于 2020-03-17 01:46:34
NLP定义: NLP的challenge(挑战)是:语言有多种意思 解决方法:看句子的context(上下文) 机器翻译系统: 传统方法:构建语料库,输入一句话,想看这句话的意思,一个单词一个单词从语料库找意思,用统计分析方法求概率 传统方法的缺点: 可能出现语料库没有这个单词的情况(out of vocabulary)—(oov) 有一词多义的情况,不好区分意思 输出的语序不一定正确 解决方法: Mixed Word/Character Model: 把所有的oov分词,拆成字符,比如比如 Jessica,变成 J,e,s,s,i,c,a。其中 是Begin,Middle,End的标记。这样处理的好处就是消灭了全部的OOV。坏处就是文本序列变得非常长,对于性能敏感的系统,这是难以接受的维度增长 UNK处理 在训练数据充足的情况下,RNN模型可以轻松支持30k-80k的词表。在大多数情况下,扩大词表都是首选的方案 通过上下文分析一词多义的情况 对于输出的语序不对的情况,可以用语言模型进行判定,给定一个句子,判定从语法来看,最正确的概率 统计型机器翻译步骤 来源: CSDN 作者: 默默努力的人 链接: https://blog.csdn.net/weixin_43979941/article/details/104858052

malt parser gives assertion error when using it with nltk

佐手、 提交于 2020-03-16 06:35:34
问题 I am using malt parser with python nltk. I have successfully downloaded the training data and updated the latest nltk. When I call the malt parser it gives me an asertion error. Below is the code from python which includes the traceback as well. mp = MaltParser("C:/Users/mustufain/Desktop/Python Files/maltparser-1.8.1","C:/Users/mustufain/Desktop/Python Files/maltparser-1.7.2",additional_java_args=['-Xmx512m']) Traceback (most recent call last): File "<pyshell#10>", line 1, in <module> mp =

malt parser gives assertion error when using it with nltk

人盡茶涼 提交于 2020-03-16 06:35:09
问题 I am using malt parser with python nltk. I have successfully downloaded the training data and updated the latest nltk. When I call the malt parser it gives me an asertion error. Below is the code from python which includes the traceback as well. mp = MaltParser("C:/Users/mustufain/Desktop/Python Files/maltparser-1.8.1","C:/Users/mustufain/Desktop/Python Files/maltparser-1.7.2",additional_java_args=['-Xmx512m']) Traceback (most recent call last): File "<pyshell#10>", line 1, in <module> mp =

300万大奖:欢迎参加美团联合主办的全球AI挑战赛

倖福魔咒の 提交于 2020-03-13 05:55:42
2018年8月29日,由美团、创新工场、搜狗、美图联合主办的“AI Challenger 2018全球AI挑战赛”正式启动。美团CTO罗道峰、创新工场CEO李开复、搜狗CEO王小川和美图CEO吴欣鸿共同启动了本次大赛,盛况空前。据悉,本次大赛整体奖金规模超过300万人民币。 想报名的同学,点 这里 ! 本次大赛共投入千万元规模以上的资金,建设了十余个全新高质量数据集,已成为目前国内规模最大的科研数据集平台和最大的非商业化竞赛平台。在2017年,有来自全球65个国家的8892支团队参加了大赛,覆盖国内外347所高校,273家企业,而今年这些记录有望被打破。 用AI挑战真实世界的问题 AI竞赛可以吸引和培养人才,展示最新思想和技术,打造良性可持续的AI科研与应用生态。2018年大赛的主题为“用AI挑战真实世界的问题”,共包括5个主赛道和5个实验赛道。美团主要负责了其中两个颇具挑战性的主赛道赛题:细粒度用户评论情感分析(题目来自美团基础研发平台AI平台部NLP中心)和无人驾驶视觉感知(题目来自美团大零售事业群无人配送部)。 美团两个赛道的奖项设置均为: 以下提及金额为税前金额,详细规则请参考《 竞赛选手报名协议 》 总决赛 冠军:400,000人民币,颁发获奖证书;辅导教师奖10,000人民币 亚军:40,000人民币,颁发获奖证书;辅导教师奖2,000人民币 季军:20,000人民币

NLP学习——词向量

这一生的挚爱 提交于 2020-03-09 06:31:12
词向量 :是一种表示自然语言中单词的方法,把每个词都表示为一个N维空间内的点,即一个高维空间内的向量。通过这种做法,把自然语言计算转换为向量计算。 有的时候词向量会写作:word2vec、word2vectors这里面的2并不是er,而是使用了英语读音的to。word to vectors 词转换为向量。 分词 对于人类的思维方式来说,人类喜欢将零零散散的词汇拼凑在一起形成一个语句或是一幅篇章。比如一首现代诗有时候仅凭几个词汇就能够表达出作者心中所想。 我们希望计算机能够像人类一样理解作者或是讲话者表达的含义,也就需要像人类一样具备将句子中的词汇分离开的能力。 因此,拿到一系列语言数据我们首先需要做的是对其进行分词。 例子: ——>我爱人工智能。 ——>“我”,“爱”,“人工智能” ——>“我”,“爱”,“人工”,“智能” 这里面就有两种对这个语句的分词方式。对于中文分词,有几种大致成型的 分词方法 one-hot编码 无论是人类还是计算机都很难直接将语言字符进行计算。我们期望着把语言字符转换为一种便于计算的形式,也就是把对应的词汇用数值类型的数据进行唯一表示。最简单的一种将语言字符转换为便于计算的一种方式就是one-hot编码。 例子: 优点: 1)解决了分类器处理离散数据困难的问题 2)一定程度上起到了扩展特征的作用 缺点: 1)没有考虑到词与词之间的顺序问题 2

NLP - Find Similar/Phonetic word and calculate score in a paragraph

老子叫甜甜 提交于 2020-03-04 17:01:32
问题 I'm developing a simple NLP project, where we have given a set of words and to find the similar/phonetically similar word from a text. I've found a lot of algorithms but not a sample application. Also it should give the similarity score by comparing the keyword and the word that are found. Can anyone help me out? def word2vec(word): from collections import Counter from math import sqrt cw = Counter(word) sw = set(cw) lw = sqrt(sum(c*c for c in cw.values())) return cw, sw, lw def cosdis(v1, v2