自然语言处理

想要学习NLP情感分析,你竟然没看过这篇文章!

≯℡__Kan透↙ 提交于 2020-09-27 03:00:20
目前,情感分析在中文自然语言处理(Natural Language Processing)中比较火热,很多场景下,我们都需要用到情感分析。比如,做 金融产品量化交易 ,需要根据爬取的舆论数据来分析政策和舆论对股市或者基金期货的态度; 电商交易 ,根据买家的评论数据,来分析商品的预售率等。 情感倾向分析的方法主要分为两类: 基于情感词典的方法; 基于机器学习的方法, 如基于大规模语料库的机器学习。 前者需要用到标注好的情感词典;后者则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。 做情感分析离不开情感词, 情感词是承载情感信息最基本的单元 ,基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。 情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果。 那么, 如何掌握基于情感词典分析方法?情感分析中的GPT 系列和 BERT 类模型又是如何使用? 别急,今天,给大家推荐一份由 开课吧 提供赞助的 《NLP情感分析学习资料大礼包》 资料。包含了情感分析、词向量、文本挖掘、Pipeline、Word2Vec、Transformer、BERT、 GPT等核心知识 。 满足你在学习NLP情感分析的各种需求,

CCAI 同期活动 | CAAI青年学术交流专场·AI研究启航指南

左心房为你撑大大i 提交于 2020-09-24 08:37:29
   CCAI 2020年8月29日-30日   2020年中国人工智能大会(Chinese Congress on Artificial Intelligence 2020,简称“CCAI 2020”)将于8月29日-30日在南京召开。CCAI 2020以“智周万物”为主题,探讨人工智能作为引领未来的战略性技术,如何以周知万物的学术境界赋能未来,带动时代发展,实现互联世界的远大理想。   为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了人工智能前沿学生论坛(Student Forum on Frontiers of AI, SFFAI)这个公益活动。   SFFAI每周举行一期线上活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。我们目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展。   此次SFFAI论坛将与2020中国人工智能大会进行联动,举办CCAI-SFFAI同期活动,我们对SFFAI前期的课题做了一个小的回顾与总结,分享所研究领域的入门学习路线和学术研究的起步经验,内容涉及必备知识、经典算法、常用代码和学习资源、感悟体会等方面,并由刚入职的同学介绍从学习到工作的转型,帮助AI相关专业的低年级学生和感兴趣的研究人员快速入门,顺利启航

史上最强DIY,手工制作一只会说话的机器狗

好久不见. 提交于 2020-09-24 07:33:54
摘要: 波士顿动力的机器狗,想要么?快来跟我一起动手制作吧。 波士顿动力的机器狗了解吗? 一个会后空翻、会开门、会爬楼梯的AI。 最近,我们实验室就来了一批mini版的机器狗,虽然不会各种高难度杂技动作,但在我们各种捣鼓下,现在特别“能说会道”。 目标:一只具备语音交互的机器狗 当前,采用API访问云端实现诸如语音识别、语音合成模块功能,逐渐可以简化或者取代一些复杂的本地资源部署,快速实现相应的功能。 但对于一些语音交互科研机器人,语音服务经常面临本地部署设备数目少、部署成本高、维护麻烦等问题。寻求低成本、部署方便、语音合成迅速的语音交互服务模块,成为设计语音交互机器人的关键瓶颈。 这次,我们对机器狗科研Demo样机搭载语音识别ASR、自然语言处理NLP、语音合成TTS服务,从而实现准确快速的语音识别、多音色富有情感的语音合成、语音运动控制、智能提醒等功能。 针对上述要求,我们选用了华为云的语音识别ASR、语音合成TTS以及自然语言处理NLP产品。具体实验改造过程其实很简单,分为三步: 在本地设备部署语音唤醒服务,设备语音唤醒后,将录音片段通过华为云的语音识别接口传至华为云进行语音识别处理。 将华为云返回的语音识别文字信息在本地进行自然语言处理,或运用华为云的自然语言处理模块进行自然语言处理得到相应的语义、控制指令信息。 将需要语音合成的文字通过华为云的语音合成接口传至华为云

MacBERT:MLM as correction BERT

时间秒杀一切 提交于 2020-09-24 05:59:46
本次分享的论文 MacBERT ,来自哈工大SCIR实验室,收录于Findings of EMNLP 子刊,全名为Revisiting Pre-Trained Models for Chinese Natural Language Processing,即 中文自然语言处理的预训练模型再访 。 论文地址: Paper 该篇论文主要做了以下三方面的工作: (1)大量的实证研究,以重新审视中文预训练模型在各种任务上的表现,并进行了细致的分析。 (2)提出了一个新的预训练模型MacBERT,通过用其相似的单词来掩盖单词,从而缩小训练前和微调阶段之间的差距。 (3)为了进一步加快对中文NLP的研究,创建了中文预训练模型系列并发布到社区。 本文章仅针对该论文的第二个工作进行介绍,即介绍预训练模型MacBERT。MacBERT模型保持了与BERT相同的训练前任务,但做了一些修改,具体如下: 1、使用全词掩蔽和N-Gram掩蔽策略来选择候选tokens进行掩蔽,从单字符到4字符的掩蔽百分比为40%、30%、20%、10%。 2、原始BERT模型使用[MASK] token进行掩蔽,但是[MASK] token在微调阶段从未出现,这会造成预训练任务与下游微调任务不一致;因此该论文建议使用类似的单词来掩蔽需要被掩蔽的单词。 类似的单词可以通过同义词工具包(Synonyms)获得

百万年薪,等您挑战!招聘认知智能天才!

偶尔善良 提交于 2020-09-23 22:56:12
第一:公司简介 杭州道翰天琼智能科技有限公司是一家认知智能科技公司。其主要方向是 认知智能理论,认知智能技术以及认知智能产品体系。用最先进的认知智能技术体系,推动技术升级,推动市场升级,产业升级,推动认知智能以及新一代智能时代的的到来。同时响应国 家2030科技计划。公司在认知智能领域已经取得多项重大突破。同时让更多业内人士共享认知智能体系 ,助力企业腾飞。欢迎顶尖认知智能人才加入! 第二:招聘职位 认知智能工程师(天才型) 第三:职位要求 1:精通古今中外哲学体系:包含但不限于易经,道德经,程朱理学,王阳明心学,存在论,本体论,认知论等哲学思想体系。 2:精通脑科学,对大脑结构,功能,机制等有深入研究,并且对宇宙,信息,大脑三者关系有深入研究。 3:精通心理学,认知发展论,结构主义,联结主义,行为主义,逻辑学,情感学,认知科学,符号学,语言学,形式语言学,认知语言学,色彩学等相关学科,并且有很强的交叉学科研究能力以及技术转化能力。 4:精通信息论,计算机科学,数学,物理学等学科。 5:精通人工智能相关体系包含但不限于机器学习,深度学习,各类算法,机器视觉,自然语言处理,语音识别,语音生成,图谱,多模态,机器人大脑等体系。 6:极强的编程能力,精通四种以上编程语言,有10年以上编程经验,主导过复杂大型高难度系统的研发。 7:有独创性开拓性突破性思想体系,包含但不限于现有人工智能

一文走遍完整NLP自然语言处理流程

余生长醉 提交于 2020-09-23 16:51:08
NLP进阶之路上,你是否也遇到过这些疑问? 为什么在这个问题上使用Adam,而不是GD或者Adagrad? 对于特定的业务场景,我应该如何把领域知识考虑进去, 用先验,还是用限制条件? 对于拼车场景,设计了一套优化目标,但好像是离散优化问题,应该如何解决? 对于二分类,我应该选择交叉熵还是Hinge Loss? 想在NLP进阶之路上有所成长,推荐你贪心学院的《高阶NLP集训营》。 实战6大NLP项目 1.从零搭建一个完整的问答系统。 2.基于给定数据,搭建完整的情感分析系统。 3.利用非结构化数据搭建知识图谱。 4.基于给定的对话数据构建NLU识别部分,结果用于聊天机器人中。 5.基于给定数据,搭建一个完整的情感分析系统。 6.搭建一个完整的聊天机器人,用来服务搜索餐厅。 《NLP高阶训练营》 ???? ???? ???? 添加课程顾问小姐姐,备注【NLP】 领取课程 优惠名额 01课程大纲 《NLP高阶训练营》 ???? ???? ???? 添加课程顾问小姐姐,备注【NLP】 领取课程 优惠名额 02部分项目作业 课程设计 紧密围绕学术界最新进展以及工业界的需求, 涵盖了所有核心知识点,并且结合了 大量实战项目, 培养学员的动手能力,解决问题能力。 问答系统 从零开始搭建一个完整的问答系统。 给定一个语料库(问题和答案对),对于用户的输入需要返回最适合的答案。 涉及到的模块: 1

Chat:NLP 中文短文本分类项目实践(上)

半腔热情 提交于 2020-09-23 12:44:37
目前,随着大数据、云计算对关系型数据处理技术趋向稳定成熟,各大互联网公司对关系数据的整合也已经落地成熟,笔者预测未来数据领域的挑战将主要集中在半结构化和非结构化数据的整合,NLP 技术对个人发展越来越重要,尤其在中文文本上挑战更大。 在本场 Chat 以及现在和未来工作中,笔者都将致力于中文文本的挖掘与开发,而且是通过实战来增加对中文 NLP 需求的应用理解。 由于是第一讲,笔者在本次 Chat 并没有提及较深入的 NLP 处理技术,通过 WordCloud 制作词云、用 LDA 主题模型获取文本关键词、以及用朴素贝叶斯算法和 SVM 分别对文本分类,目的是让大家对中文文本处理有一个直观了解,为后续实战提供基础保障。 下面是一些约定: 本 Chat 示例代码都是基于 Python3 写的,带有必要的注释; 中文自然语言处理(Chinese natural language processing),后面笔者全部简称 CNLP; 笔者所用开发环境是 Windows 10 操作系统和 Jupyter notebook 开发工具。相信示例代码在 Linux、Mac OS 等系统上运行也没问题。 一、WordCloud 制作词云 最近中美贸易战炒的沸沸扬扬,笔者用网上摘取了一些文本(自己线下可以继续添加语料),下面来制作一个中美贸易战相关的词云。 1. jieba 分词安装 jieba

工程师们,这个智能金融头部创业团队推荐给你

你说的曾经没有我的故事 提交于 2020-08-20 09:10:38
原创 鲍捷 文因互联 致求职者: 求职是一个双向选择的过程,希望你认可我们看好的前景和技术路径,更希望你加入我们一起创造未来。以下从行业前景、公司介绍以及公司文化三个方面介绍, 期待先被你选中。 文末有我们招聘的岗位JD,但条件仅供参考,感兴趣请把 简历 发给我吧, ceo@memect.co (注意是.co不是.com)。 文因互联 CEO 鲍捷 AI 发展增量主要来自于认知智能 2017年7月20日,国务院印发《新一代人工智能发展规划的通知》三步走战略目标测算,中国人工智能市场2020年超千亿,2025年超万亿。 各行业走向智能化的发展道路,在某种意义上也是人类社会发展的必然趋势 ,在AI的赋能下,传统行业面临着巨大机遇,其所关心的一系列核心问题,比如增加收入、降低成本、提高效率和安全保障等,都将显著受益于智能化技术。 智能化技术包含了两个核心点:机器感知智能和机器认知智能。 感知智能 是让机器具备感知世界的能力,在深度学习的推动下,机器感知能力显著提升,比如图像识别,语音识别等。从2012年开始,以感知智能,尤其是计算机视觉、语音识别等技术为核心发展的一系列公司如商汤、旷视等,已经完成了从零到独角兽的跨越。 认知智能 是让机器具备认知智能是指让机器能够像人一样思考,这种思考能力具体体现在机器能够理解数据、理解语言进而理解现实世界的能力,比如解释数据、解释过程,解释现象,推理

用人工智能监督人工 遭遇非技术困局

元气小坏坏 提交于 2020-08-20 08:24:23
来源: 科技日报 远程办公常态化催生云监工软件市场。近日一款名为Enaible的AI监工软件销售火爆,这种AI软件不仅可以盯着员工干活,还可以对员工的工作效率进行打分…… 一场新冠肺炎疫情,让远程办公逐渐成为常态。钉钉、飞书、企业微信、zoom等视频会议类软件,很好地解决了远程沟通问题。除了视频会议软件,另一种云监工软件也火了,这种AI软件可以盯着你干活,看你是否“摸鱼”,并给你打分。这款AI监工软件名叫Enaible,据悉,全员在家办公期间,Enaible销售尤其火爆,前来咨询的公司数量是以前的4倍。但也有批评声音表示,这款软件会让员工失去创造力和对于公司的忠诚度。 收集操作痕迹 可给工作效率评分 AI监工有何神通能监督员工们的工作,还能为员工打分?据介绍,Enaible软件装在员工的电脑里,并可以在后台一直运行,收集员工工作中的细节数据后提供给公司。软件使用了一个名为Trigger-Task-Time的算法,算法会根据邮件或者电话,来判断员工要完成什么任务以及计算这些任务花了多长时间来完成,随后算法会根据这些数据给员工的工作效率打分。 “我们使用的操作系统,都会以日志的形式对应用软件的操作流程进行记录。打开哪个文档、内容是什么、上网浏览哪些网页都会留下使用痕迹。在计算机里面装一个监控软件,赋予它操作系统里的很多权限,AI监工就能把办公中操作电脑所留下的各种数据收集起来