自然语言处理

NLP | 搜索文本的匹配算法

删除回忆录丶 提交于 2020-08-10 07:33:33
搜索即找到跟搜索词句很相似的文本,例如在百度中搜索"人的名",结果如下 那么怎么评价两个文本之间的相似度呢? 余弦相似度 (cosine similiarity) 本文介绍基于 VSM ( Vector Space Model ) 的 余弦相似度 算法来评价两个文本间的相识度。 余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。 两个空间向量之间的夹角越小,我们就认为这两个向量越吻合,cosθ 越大,当完全重合时 cosθ = 1 由余弦定律可知:(原谅我百度盗的公式图) 来源: oschina 链接: https://my.oschina.net/u/4383725/blog/4404627

蚂蚁金服高要求的领域建模能力,对研发来说到底指什么?

断了今生、忘了曾经 提交于 2020-08-10 06:39:01
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 最近,由于工作需要,作者接触了网商银行的一个项目。项目里对应的业务模型设计,是我工作这三年来见过的所有模型里最复杂的。于是,利用五一这个短暂的假期,我温习了一遍领域建模相关的知识,对于领域模型的设计,有了一些额外的思考。 在领域界有一本书 《Domain-Driven Design》,是Eric编写的,这本书在Goodreads上的评分是4.15分(相当高)。书中有这样的一段话: “软件开发人员几乎总是专注于技术,把技术作为自己能力的展示和成功的度量......当领域很复杂时,这是一项艰巨的任务,要求高水平技术人员的共同努力。开发人员必须钻研领域以获取业务知识。他们必须磨砺其建模技巧,并精通领域设计。“ 书中所强调的领域设计的能力,是对技术人员综合能力评估的一种体现。在我看来,这是属于在软件工程这个方向中,T-1级别的能力。而所谓的领域建模,是一种通过日常不断实践,来强化开发人员思维,逼迫开发人员进入深度思考的过程,并通过在这个过程中的不断锤炼,可以使得开发人员形成结构化思考方式的方法论。 但是,需要注意的是,领域模型本身的定义,在不同的方法论和流派中,是有一些区别的。领域建模的方法也有多种。不过,求同存异,没有对错之分。 在本文,我主要是写一写我对于领域建模的理解

任务型对话(一)—— NLU/SLU(意图识别和槽值填充)

我的梦境 提交于 2020-08-10 05:46:32
1,概述   任务型对话系统越来越多的被应用到实际的场景中,例如siri,阿里小密这类的产品。通常任务型对话系统都是基于pipline的方式实现的,具体的流程图如下:        整个pipline由五个模块组成:语音识别;自然语言理解;对话管理;自然语言生成;语音合成。现在越来越多的产品还融入了知识库,主要是在对话管理模块引入。在这里除了语音识别和语音合成模块不属于自然语言处理范畴且属于可选项之外,其他的三个模块都是必要的。   自然语言理解(NLU):主要作用是对用户输入的句子或者语音识别的结果进行处理,提取用户的对话意图以及用户所传递的信息。   对话管理(DM):对话管理分为两个子模块,对话状态追踪(DST)和对话策略学习(DPL),其主要作用是根据NLU的结果来更新系统的状态,并生成相应的系统动作。   自然语言生成(NLG):将DM输出的系统动作文本化,用文本的形式将系统的动作表达出来。   我们接下来将会详细讨论这四个模块(NLU,DST,DPL,NLG)。 2 意图识别和槽值填充   举一个简单的例子,以一个询问天气的任务型对话为例,根据专家知识,我们会预先定义该任务的意图和相应的槽,这句话该怎么理解呢?   比如用户输入:“今天深圳的天气怎么样?”,此时用户所表达的是查询天气,在这里我们可以认为查询天气就是一种意图,那具体查询哪里的天气,哪一天的天气

中国高校人工智能专业综合排名榜单

我们两清 提交于 2020-08-10 02:26:00
点击上方 “ 小白学视觉 ”,选择加"星标"或“置顶” 重磅干货,第一时间送达 本文转载自 | 图灵人工智能(id: TuringAI01) 2017年7月,国务院发布了《新一代人工智能发展规划》,明确提出了“设立人工智能专业”和“在原有基础上拓宽人工智能专业教育内容”等要求。 2018年4月,教育部印发了《高等学校人工智能创新行动计划》,将完善人工智能领域人才培养体系作为三大任务之一。 随着AI发展上升至国家战略,人工智能也成为高考志愿选择中最炙手可热的“火爆”专业。 允能智库从国际影响力、科研实力、人才输出、创新活力四大维度对中国72所新设人工智能专业的高校进行综合排名,深层解读中国高校人工智能专业的真实水平与发展潜力。 人工智能(AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。该领域的研究包括机器人、语言识别、图像识别、自然语言处理等。随着大数据时代的到来,人工智能已成为引领未来的新兴技术。美国是世界上第一个将人工智能上升到战略层面的国家,英、德、法、韩、日等国也相继发布了人工智能相关战略。我国更是从中央到地方密集出台系列政策,力图在新一轮科技竞争中掌握主导权。 全球首富——比尔·盖茨,建议大学生专业选择时曾说过这样一句话:如果现在进入大学,我的首选专业将是人工智能。因为未来一定是人工智能的时代

CODING DevOps 系列第六课:IT 运维之智能化告警实践

与世无争的帅哥 提交于 2020-08-10 01:46:09
IT 运维告警现状 目前 IT 运维领域保证服务运行正常的主要方法是对相关运维指标进行实时监控,并根据经验设定一些规则,通过将实时监控的数据与规则进行对比,当某个指标监控值不符合设定的规则时,则判定为异常的状况,这样的话就会发送对应的告警到告警平台。告警平台收到通知后,会分配给对应的运维人员进行处理,运维人员去根据告警信息来排查,最终定位故障的根本原因,并对故障进行修复。从这个流程可以看出,整个过程是以告警为中心,所以告警的质量是至关重要的。 但在实际运维过程中,我们可以发现这个过程中其实存在很多问题。首先,监控系统的规则难以设定。因为规则是基于专家经验设定的,随着系统规模变大,复杂度提高,监控覆盖的完善,监控指标数量指数性增加,指标形态千变万化,基于专家经验的规则设定力不从心,误报率、漏报率居高不下。运维人员可能会遭遇告警风暴,每天被数千个告警轰炸,难以应付。故障发生后,对若干个告警逐一排查找故障根因,效率极低,大大增加故障的恢复时间。故障有可能无法预知,有些本来可以避免的故障还是发生了。 智能化告警的理念和相关技术 为了解决上述问题,在智能运维领域,智能化告警的概念出现了。智能化告警主要解决 4 个问题:一、精准告警,拒绝告警风暴;二、快速故障定位;三、进行故障预测,避免故障发生;四、规则设置自动化,不再通过人工经验来设置规则。 智能异常检测的核心理念是利用机器学习算法

韦地科技携手珠海复旦创新研究院共建联合实验室

两盒软妹~` 提交于 2020-08-09 19:59:45
为充分发挥研究院与企业的资源优势,以市场需求驱动协同创新,2020年4月16日在创意谷21栋北区二楼大会议室举办了珠海复旦创新研究院与韦地科技有限公司共建联合实验室签约仪式。该实验室是研究院与韦地科技企业合作成立的第一家联合实验室,将在计算机视觉识别和自然语言处理技术、金融科技领域、物联网相关芯片与操作系统研发等应用方向联合研发,研发成果通过企业快速走向市场,加快科技成果转移转化。中共薛城区委薛城区人民政府尹作义等一行六人,韦地科技有限公司董事长孙伟等一行四人,珠海复旦创新研究院执行院长王俊宇及研究院相关负责人、韦地科技-珠海复旦创新研究院联合实验室主任汪卫出席了本次签约仪式。 尹作义对联合实验室的成立表示祝贺,并希望联合实验室能够充分利用研究院和韦地科技雄厚的技术优势、人才优势和市场优势,取得更多拥有知识产权和核心技术的新成果。同时,薛城区政府将给予全方位的支持,并祝愿联合实验室早出成果、多出成果、出好成果。 王俊宇院长向在座嘉宾介绍了研究院的发展情况和取得的成绩,并表示,韦地科技-珠海复旦创新研究院联合实验室是珠海复旦创新研究院与企业成立的第一个联合实验室,研究院将给予大力支持,携手韦地科技打造产学研合作典范。 孙伟董事长表示,韦地科技始终把科技创新作为企业发展的第一动力,拥有多项具有独立知识产权的创新成果,研究院又是一个培养人才、拥有核心研发技术的平台,希望通过强强联合

比GPU性能提升5倍阿里云含光800云服务器正式商用

空扰寡人 提交于 2020-08-09 18:49:31
含光800云服务器,配备阿里平头哥自研神经网络加速芯片含光800,提供全球最高单芯片AI推理性能,有着同类处理器的数十倍性能;并针对业务场景做了深度优化,广泛适用于图像搜索、场景识别、视频内容识别、自然语言处理等业务,为客户提供超高性价比的推理解决方案。 阿里云城市大脑交通信号机系统使用含光800服务器处理车辆检测、品牌识别、车牌识别等算法模型,单张含光800全链路能够支持100路实时视频的分析和特征结构化数据的提取,相比GPU性能提升超过5倍。 阿里电商平台合规经营也在含光800云服务器上建立了多维度全方位的风险识别机制。在同样的算法精度下,性价比是GPU的4倍。 据悉,含光云服务器还基于阿里云自研的神龙云服务器架构,为用户提供弹性裸金属加速实例,兼顾了物理服务器的功能性能优势,以及云计算的高可用优势。开发工具采用阿里平头哥HGAI自动化开发工具,支持主流深度学习框架TensorFlow、Caffe、MXNet和ONNX。 今年3月,阿里云飞天AI加速引擎AIACC与含光800的组合,打败了Google,拿下了斯坦福大学DAWNBench ImageNet推理成本的世界第一,能效比达500IPS/W,是第二名的3.3倍。 AIACC是业界首次统一加速Tensorflow、PyTorch、MXNET、Caffe等主流开源框架的性能加速引擎,AIACC

零样本文本分类,Zero-Shot Learning for Text Classification

无人久伴 提交于 2020-08-09 14:21:52
来源:专知 最近发布的GPT-3让我对NLP中的零学习和小样本的状态产生了兴趣。虽然大多数的零样本学习研究集中在计算机视觉,也有一些有趣的工作在NLP领域。 我将会写一系列的博文来涵盖现有的关于NLP零样本学习的研究。在这第一篇文章中,我将解释Pushp等人的论文“一次训练,到处测试:文本分类的零样本学习”。本文从2017年12月开始,首次提出了文本分类的零样本学习范式。 什么是零样本学习? 零样本学习是检测模型在训练中从未见过的类的能力。它类似于我们人类在没有明确监督的情况下归纳和识别新事物的能力。 例如,我们想要做情感分类和新闻分类。通常,我们将为每个数据集训练/微调一个新模型。相比之下,零样本学习,你可以直接执行任务,如情绪和新闻分类,没有任何特定的任务训练。 一次训练,随处测试 本文提出了一种简单的零样本分类方法。他们没有将文本分类为X类,而是将任务重新组织为二元分类,以确定文本和类是否相关。 更多内容可以访问原文: https:// amitness.com/2020/05/ze ro-shot-text-classification/ 来源: oschina 链接: https://my.oschina.net/u/4353930/blog/4297757

Office办公软件三十而立,从一花到多花(上)

ぃ、小莉子 提交于 2020-08-09 11:27:42
中国软件网 出品 作者 曹开彬 ------- 今年是微软Office诞生的 30年。 1990年,微软正式推出Office 1.0。 2020年,微软的Office被升级并改名为Microsoft 365。 从Office到Office 365,到如今的Microsoft 365,微软办公软件Office名字的变化,这背后反映了Office市场的哪些特点? 另一方面,国内Office办公软件的旗帜——金山办公2019年11月18日正式上市,开启国产办公软件发展的新纪元。 更值得关注的是,疫情让办公软件、尤其是在线文档的需求大幅上升。根据QuestMobile发布的报告显示,2020年春节后办公软件日均活跃用户规模上升了4000万。 而金山办公的相关负责人也曾表示,疫情期间近2.4亿人使用在线协作文档,而金山文档月活跃用户已突破2.39亿。 这一切,正预示着一个不一样的未来。 三十而立的Office办公软件未来有什么发展趋势? 为此,中国软件网对业内专家刘昌伟先生进行了专访。 刘昌伟 刘昌伟,北京航空航天大学硕士,北京金山办公软件股份有限公司合伙人,海淀信息服务业常务副会长。20余年IT行业生涯,从技术研发、产品策划到公司管理,积累和沉淀了丰富的经验,具有敏锐的嗅觉。多年来,管理过大型研发团队,获得了10余项专利。曾主持、策划、设计和研发过多款成功产品,主持研发天驭网络照片管理系统

第74天:Python newspaper 框架

荒凉一梦 提交于 2020-08-09 08:50:39
by 程序员野客 1 简介 newspaper 框架是一个主要用来提取新闻内容及分析的 Python 爬虫框架,更确切的说,newspaper 是一个 Python 库,但这个库由第三方开发。 newspaper 主要具有如下几个特点: 比较简洁 速度较快 支持多线程 支持多语言 GitHub 链接: https://github.com/codelucas/newspaper 安装方法: pip3 install newspaper3k 2 基本使用 2.1 查看支持语言 import newspaper print(newspaper.languages()) 2.2 获取新闻 我们以环球网为例,如下所示: import newspaper hq_paper = newspaper.build("https://tech.huanqiu.com/", language="zh", memoize_articles=False) 默认情况下,newspaper 缓存所有以前提取的文章,并删除它已经提取的任何文章,使用 memoize_articles 参数选择退出此功能。 2.3 获取文章 URL >>> import newspaper >>> hq_paper = newspaper.build("https://tech.huanqiu.com/", language=