自然语言处理

2020还是AI最火?推荐几本深度学习的书籍帮你入门!

夙愿已清 提交于 2020-08-05 02:54:12
​ 最近公司里有一些关于算法方面的工作,想到能学点有趣的新技术,于是毫不犹豫地参加了学习,机器学习,深度学习,离我们Java工程师到底远不远,说近不近,说远也不远,我们甚至可以在没有太多机器学习理论的基础时,去学习一些深度学习的简单应用,至少拿到demo过来跑一下还是没什么问题的。 深度学习到底是啥,简单来说,深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。 深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。 深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。 今天我们就来推荐几本我们公司几位算法大佬推荐的深度学习图书,虽然不能保证你们看得懂,但是也一定是优中选优,如果你对机器学习有所了解,想学习一些深度学习的知识,也不妨看看这一份书单。 深度学习系列书单 ​

由VIP漂移引发的算法异常问题调查和解决

|▌冷眼眸甩不掉的悲伤 提交于 2020-08-05 02:49:58
最近工作中的一个问题,耗时一个月之久终于调查完毕且顺利解决,顿时感慨万千。耗时之久和预期解决时间和环境搭建以及日志不合理等等有关,当然这个并非此文的重点。 之所以在很久以后的今天又开始写文,主要是这个问题调查的过程值得铭记。具体情况如下文述。 一、问题发现过程 数据告警服务提示相关分析结果缺失,经初步调查,发现分析服务在调用对应的NLP算法服务时出现大量Failed,遂查看算法日志,确实存在错误信息。 二、问题调查和解决 1.定位问题 1) 反馈给算法相关开发同学:他们认为可能是该算法遇到了长文本数据(超过3000字),由于分析时间超长,导致后续算法请求时出现阻塞而导致failed。 2) 根据开发的反馈,开始定位是否存在这样的长文本数据:通过分析日志和数据库查询确认后,并没有分析长文本数据,且出现异常时的文本数据均为短文本(小于200)。 3) 深入调查:该算法部署了多个节点,出现异常时,多个节点均出现了异常,因此可能是算法本身遇到了某个瓶颈问题。经确认,该算法使用了同一台GPU服务器上的tf-serveing服务。 4) 确认GPU服务器是否发生了异常情况:经确认,该服务器进行过VIP漂移操作。 5) 问题是否可以复现:测试环境中,对GPU服务器进行vip漂移操作,发现错误现象出现,问题可复现。 因此,问题的起因是GPU服务器进行了VIP漂移操作,导致算法出现异常。 2

ACL 2020:微软摘得最佳论文,Bengio论文获时间检验奖,大陆论文量第二

跟風遠走 提交于 2020-08-05 00:47:42
在陆续放出时间检验奖、终身成就奖和杰出服务奖之后,ACL 2020 终于公布了今年的最佳论文奖。该奖项由来自微软研究院、华盛顿大学和加州大学欧文分校的研究者摘得,主题是与任务无关的 NLP 模型测试方法。 机器之心报道,参与:魔王、小舟、杜伟。 ACL 是自然语言处理领域的顶级会议,根据刚刚发布的最新版 Google Scholar Metrics,ACL 继续领跑计算语言学领域,h5 指数达到 135。 今年的 ACL 会议于本月 5 日至 10 日在线上召开。此次会议公布了最佳论文、最佳主题论文、最佳 demo 论文、时间检验奖等多个奖项。 此外,大会官方也介绍了今年的接收论文、热门研究主题等数据。 ACL 2020 共收到投稿 3429 篇,创下了 ACL 投稿数量的新纪录。此次会议共接收论文 779 篇,包括 571 篇长论文和 208 篇短论文,论文接收率为 22.7%。 接下来,我们看下 ACL 2020 的热门研究主题。 用于 NLP 的机器学习、对话与交互技术、机器翻译、信息提取和 NLP 应用是此次会议最热门的 5 个研究主题,每个都有超过 200 篇论文投稿。其中「用于 NLP 的机器学习」主题的论文投稿接近 300 篇(296)。 此外,大会公布了论文提交数量最多的 25 个国家或地区,中国大陆以 1084 篇的提交量位列第一,其次是美国。 从接收论文的数量看

AI 新基建怎么做,腾讯云正式公布全景布局

二次信任 提交于 2020-08-04 23:38:49
新基建正在成为中国经济发展的新动能,在政策的推动下,截止今年 3 月,已累计有 25 个省区市公布了未来的新基键投资计划,金额高达 49.6 万亿元,2020 年计划投入 7.6 万亿。 在新基建覆盖的七大新产业,包括人工智能、大数据中心、5G基站,工业互联网,高铁城轨,特高压,新能源汽车中。人工智能成为新一轮产业变革的核心驱动力量。 各大企业纷纷针对新基建展开布局,腾讯近日也官布未来 5 年内将投入 5000 亿元用于新基建。关于人工智能,腾讯云在5月27日的媒体开放日上,也正式对外公布了未来对于 AI 新基建的全景布局。 腾讯云 AI 新基建架构:以一云三平台为核心 据腾讯云 AI 计算机视觉产品中心总经理,人工智能和前端技术领域专家工程师王磊介绍,腾讯云 AI 的新基建架构是以一云三平台为核心的。 其中,一云是指腾讯云,依托腾讯云的底层能力,提供计算、存储、网络和安全等基础服务支撑。据统计,腾讯全网服务器总量现已超过 100 万台,带宽峰值已经突破 100T。 三平台包括算法平台、服务平台和开放平台。 算法平台层:通过不断完善算法核心框架、深度学习工具、AI中台能力,打造数据到算法模型的全流程闭环,真正的将AI能力应用到实际的业务场景中。目前,腾讯拥有包括腾讯 AI Lab、腾讯优图实验室、WeChat AI等人工智能实验室矩阵,以机器学习、计算机视觉

NLP基础之Python正则表达式

ⅰ亾dé卋堺 提交于 2020-08-04 22:42:16
Python正则表达式 正则表达式(regular expression)描述一种字符串匹配的模式,用来检查字符串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。 目录 常用表达式 生成日志数据 正则表达式分析 常用表达式 .* 用来匹配所有内容 () 括号用来进行分组,取出已经匹配内容中的部分需要数据 *(?=r) 表达式的含义向前寻找 例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。 .*(?<=row) 表达式的含义反向寻找 例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。 生成日志数据 #! /usr/bin/env python3 from datetime import datetime import json import random import os import sys import time import urllib import 来源: oschina 链接: https://my.oschina.net/u/4391345/blog/4439052

##好好好好###开源的标注工具

纵饮孤独 提交于 2020-08-04 19:10:16
## 开源的标注工具 自然语言处理标记工具汇总 https://blog.csdn.net/wangyizhen_nju/article/details/94559607 spacy原来有两个标注工具,displaCy-ent和displaCy,一个ner一个依赖关系. Annotator for Chinese Text Corpus (UNDER DEVELOPMENT) 中文文本标注工具 自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分析等,均需要标注数据进行模型训练。深度学习大行其道的今天,基于深度学习的 NLP 模型更是数据饥渴。 最前沿的 NLP 技术往往首先针对英文语料。英文 NLP 的生态很好,针对不同有意思的问题都有不少大规模语料公开供大家研究,如斯坦福的 SQuAD 阅读理解语料。中文方面开源语料就少得多,各种英文 NLP 上的犀利模型和前沿技术都因为中文语料的匮乏很难迁移过来。 另一方面,对于一些垂直领域,如医疗、金融、法律、公安等等,专有名词和特有需求甚多,很难将比较 general 的比如在 wikipedia dump 上面训练的模型直接拿过来用。 传统人工标注数据的过程往往是繁琐和低效率的。刚标了一个“联想”是公司名,又来一个“联想集团”,再标一次又来一个“联想集团有限公司”

对话机器人,电商客服的救星

佐手、 提交于 2020-08-04 17:03:35
摘要: 24小时待命的人工客服有救星了。 网购最忙碌的除了电商平台的运维人员、物流配送人员,还有一批默默贡献的普通客服人员,消费者每发出一个请求,都需要客服及时有效的反馈,在像618这样的购物节中,电商企业的客服人员更是处于24小时待命中。 不过,智能客服和NLP文本处理的应用帮助很多企业提升了运营效率和客户体验,尤其是以华为云对话机器人为代表的一系列产品,正在为这些需要大量人工客服的企业降本增效。与此同时,越来越多的商业应用场景必将带动NLP语言理解和语言生成技术取得更多突破。 智能话务机器人 谷歌在其2018年I/O大会上演示了Duplex技术,让机器人使用几乎和真人无异的声音打电话到餐馆订位,和电话另一端的人类进行多轮互动。这个很吓人的技术在会后被广为传播。有人曾经想象,当这一技术成熟落地的时候,我们在见面聊天之后,可能会和对方说:“今天我们说的那个想法很棒,让我的机器人和你的机器人晚一点打个电话讨论具体的细节吧”。 这样科幻的想法,消费者可能还需要再多等一段时间。但是,对于企业来说,华为云2018年上线的智能话务机器人,已经在多个企业场景中,实现了机器人自动打电话和人类进行多轮互动。 典型的使用场景包括,自动外呼核实用户身份信息,回访客户满意度,了解候选人求职意向、查询订单状态物流信息、营销筛选意向客户以及各种类型的预约或预订服务等

惊爆!深度学习可以深度理解了!沈向阳如是说!道翰天琼认知智能机器人api接口平台为您解密!

廉价感情. 提交于 2020-08-04 12:44:06
道翰天琼认知智能未来机器人接口API简介介绍认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口,以跨学科理论体系为指导,从而形成的新一代理论、技术及应用系统的技术科学。 认知智能的核心研究范畴包括:1.宇宙、信息、大脑三者关系;2.人类大脑结构、功能、机制;3.哲学体系、文科体系、理科体系;4.认知融通、智慧融通、双脑(人脑和电脑)融通等核心体系。 认知智能四步走:1.认知宇宙世界。支撑理论体系有三体(宇宙、信息、大脑)论、易道论、存在论、本体论、认知论、融智学、HNC 等理论体系;2.清楚人脑结构、功能、机制。支撑学科有脑科学、心理学、逻辑学、情感学、生物学、化学等学科。3.清楚信息内涵规律规则。支撑学科有符号学、语言学、认知语言学、形式语言学等学科。4.系统落地能力。支撑学科有计算机科学、数学等学科。 接口申请官网地址: www.weilaitec.com 接口地址(例子): http://a239p06512.zicp.vip/Web/BuAppJava.bujqrex?apikey="+apikey+"&msg="+msg+"&ip="+ip 用户端消息内容。 String msg ="你在干嘛呀?"; apikey参数

学习周记1:2019.2.18-2019.2.24

末鹿安然 提交于 2020-08-04 12:28:39
前言 这学期几乎全是硬核的算法/程序课,为了督促自己认真学习,我将每周写一篇周记。周记模板前一周保留,当周每日更新当日笔记。如有整段文字代码适合另起blog,也将链接标在周记对应的日期下。 课程: 算法设计与分析 、数字图像处理、 程序设计实习 、 游戏AI中的算法 、视觉计算与深度学习、人工智能引论及实践课(NLP)、Python程序设计与数据挖掘导论、 大数据分析中的算法 2019.2.18 课程: 大数据分析中的算法 、 算法设计与分析 、 游戏AI中的算法 日记: 大数据似乎默认我们已经有相当的机器学习相关数学知识,应当尽快补上 吴恩达的机器学习课程 。 算分看上去不是太难,虽然数算我学的是B,但应该没有太大问题,一边上算分一遍补 数算A慕课 吧。 游戏AI第一节课涉及极大极小,alpha-beta剪枝,蒙特卡罗,看样子是默认我们知道这些内容的,今天就要补上。 算法设计与分析课程内容 alpha-beta剪枝 http://web.cs.ucla.edu/~rosen/161/notes/alphabeta.html 这篇文章非常详细易懂! 如何学习蒙特卡罗树搜索(MCTS) https://zhuanlan.zhihu.com/p/30458774 大概看懂了MCTS的原理,代码没撸。 2019.2.19 课程: 大数据分析中的算法 日记: 今天早上浪费时间写公众号

学习周记4:2019.3.11-2019.3.17

别说谁变了你拦得住时间么 提交于 2020-08-04 12:07:02
前言 这学期几乎全是硬核的算法/程序课,为了督促自己认真学习,我将每周写一篇周记。周记模板前一周保留,当周每日更新当日笔记。如有整段文字代码适合另起blog,也将链接标在周记对应的日期下。 课程: 算法设计与分析 、数字图像处理、 程序设计实习 、 游戏AI中的算法 、视觉计算与深度学习、人工智能引论及实践课(NLP)、Python程序设计与数据挖掘导论、计算机图形学 2019.3.11 课程: 算法设计与分析 、 游戏AI中的算法 、人工智能引论、计算机图形学 日记: 算分作业写完了。 2019.3.12 课程:无 日记: 早上起得很迟,下午有点烦躁,OJ做不出来,基本没做什么。晚上去听了学而思的招聘专场,本来我以为是好未来的招聘,没想到仅仅局限于学而思,而且现场基本就是招聘讲师。 听了双师课堂的介绍,比想象中要更加有意思一点点。记录一段给认识的在好未来工作的学长的话。 今晚还是比较有收获的,更直观地了解了一下双师课堂,比过去理解的要更加“科技加持”一点。没想到学而思对学习数据的搜集已经做到这个程度了,还是挺兴奋的。 我一直认为,游戏化、互动、激励之类略微有点“华而不一定实”的东西不是“目的”而是“工具”,我在一块的态度一直是比较保守的,我对教育技术很感兴趣,但是对这些东西是否能够真正提高学习效率/兴趣存疑。(不是看上去高大上就是好的有效的,技术的应用常常会本末倒置