自然语言处理

飞鸟欢唱着生命的春天我

≯℡__Kan透↙ 提交于 2020-05-03 13:49:25
sdfsdf 服务网格作为一个改善服务到服务通信的专用基础设施层,是云原生范畴中最热门的话题。随着容器愈加流行,服务拓扑也频繁变动,这就需要更好的网络性能。服务网格能够通过服务发现、路由、负载均衡、心跳检测和支持可观测性,帮助我们管理网络流量。服务网格试图为无规则的复杂的容器问题提供规范化的解决方案 将供应链搬出中国,似乎成了过去两三个月新冠肺炎疫情衍生出的热门话题。 年初新冠肺炎疫情爆发,让中国供应链的生产活动几乎完全停顿,影响席卷全球:苹果的新 5G 有可能因疫情而延期推出,特斯拉新款芯片无法及时交付、陷入“芯片门”纠纷。其余像三星、小米、索尼等著名跨国企业,均受到供应链停摆的影响。 因此,nuljasg.answers.yahoo.com/question/index?qid=20200426143409AAzUMbI?XH9=37rdn=97d hk.answers.yahoo.com/question/index?qid=20200426143409AAzUMbI?JD3=71xnf=39p answers.yahoo.com/question/index?qid=20200426143409AAzUMbI?XL5=19ldt=77r nz.answers.yahoo.com/question/index?qid=20200426143409AAzUMbI?BZ9

[CS224n笔记] L19 Safety, Bias, and Fairness

这一生的挚爱 提交于 2020-05-02 12:24:35
最近会逐步将博客上的 CS224n-2019 笔记搬到知乎上来,后续也会新增 CS224n-2020 里的更新部分:CS224n-2020 并未更新 Note 部分,但课程的部分课件进行了教学顺序上的调整与修改(Suggested Readings 也相应变动),需要注意的是三个 Guest Lecture 都是全新的。 本文为 Lecture 19 Safety, Bias, and Fairness 的笔记。 Useful links 课程官网: Stanford CS224n || Stanford CS224n-2019 课程材料: LooperXX/CS224n-Resource || LooperXX/CS224n-Reading-Notes 课程视频: YouTube 国内视频资源: 2019版|英文字幕(仍在更新) || 2019版|英文字幕(全) || 2017版|中英字幕 如有疏漏之处,还望不吝赐教~ Lecture 19 Safety, Bias, and Fairness Prototype Theory 分类的目的之一是减少刺激行为和认知上可用的比例的无限差异 物品的一些核心、原型概念可能来自于存储的对象类别的典型属性(Rosch, 1975) 也可以存储范例(Wu & Barsalou, 2009) Doctor —— Female Doctor

概率论与数理统计中基于有限样本推断总体分布的方法,基于总体未知参数区间估计的假设检验方法之讨论,以及从数理统计视角重新审视线性回归函数本质

偶尔善良 提交于 2020-05-02 10:55:05
1. 总体与样本 0x1:数理统计中为什么要引入总体和个体这个概念 概率论与数理统计中,一个很重要的研究对象就是总体的概率分布,理论上说,我们希望获得被研究对象的总体样本,基于这份总体样本进一步研究其概率分布,但是遗憾地是,几乎在100%的情况下,我们都不可能获得真正的总体,我们只能获取有限的样本量(例如自然生物里的统计问题),有时候甚至还是非常少的小样本集(例如宇宙星体观测结果),如何有效、准确、误差可控地利用有限的样本集,进行最大程度合理的统计推断,既是一个理论研究课题,也是非常有现实意义的应用理论。 因此概率论与数理统计科学家们提出了总体和个体这个概念,主要观点如下: 在大数定律的理论支撑下,只要我们的个人样本数足够多,个人样本的统计量会在趋近于1的概率下,趋近于总体样本的统计量。这就是我们在没有完整总体样本的情况下,依然能够利用概率论与数理统计这个强大的武器,对未知的事物开展统计研究的理论依据。 同样在大数定律的理论支撑下,即使样本数不够多,基于有限的样本数得到的估计结果,和理论总体之间的误差,也可以可以通过概率分布统计量的形式,定量地给出的,这给统计推断的不确定性决策提供了基础。 0x2:总体与样本 1. 总体的形式定义 在一个统计问题中,我们把研究对象的全体称为 总体 ,也即样本空间全集,构成总体的每个成员称为 个体 ,也即样本子集。 对于具体问题中

人工智能怎么教?清华张钹院士刚刚给我们讲了一堂课

人盡茶涼 提交于 2020-05-01 21:41:09
今天上午,张钹院士畅谈了清华是怎样办人工智能专业的。 机器之心报道,参与:泽南、蛋酱。 在上一个十年里,我们见证了人工智能的「复兴」,见证了人工智能技术对于众多行业的颠覆性变革,也感受到了人工智能对每个人生活的深刻影响。随之而来的,人工智能专业也成为了当前高校中最热门的专业之一。 2020 年 3 月,教育部公布的新增备案本科专业名单中,约 180 所高校通过了新增人工智能专业的审批,其中既包括理工类、综合类高校,也包括语言类、医药类等专业性较强的高校。 有人说,人工智能是当前最好的计算机专业。 但作为新兴专业,如何办好还需要教育者们的大量探索。 4 月 30 日,中国科学院院士、清华大学人工智能研究院院长张钹为分享了关于清华大学计算机系人工智能专业建设的经验与思考。 在著名计算机科学排名「CS Ranking」中,清华大学的人工智能学科在 2010 年至今排名仅次于 CMU,如果时间拉近到 2015 年至今范围内,清华则排名第一。 清华大学计算机系成立于 1958 年,是我国计算机学科领域教学水平最高、科研综合实力最强、影响力最广的计算机系之一。 2018 年 6 月 28 日,清华大学人工智能研究院正式成立。中国科学院院士、清华大学计算机系教授张钹出任首任院长,图灵奖获得者、清华大学交叉信息研究院院长姚期智担纲学术委员会主任。 一年后,清华大学宣布成立「人工智能学堂班」,也就是

AI研习丨洪宇:信息抽取的常识与前沿

旧城冷巷雨未停 提交于 2020-05-01 14:30:15
        信息抽取是自然语言处理(NLP)研究领域的常青树之一, 是多项应用研究的重要基础,是与多学科研究交叉(如aspect term extraction)的一种技术。主要包括事件抽取(Event Extraction/ Nugget Detection)、关系抽取(Entity Relation Extraction)、属性 抽取(Aspect Term Extraction)、槽填充(Slot Filling)、名实体 识别(Named Entity Recognition)和实体链接(Entity Linking)这些门类。本报告仅针对其中的事件抽取进行回顾,包括基础神经网络结构,以及近几年相应领域的前沿研究进行概述。 1 神经NLP基础   通常,我们在处理语言时,采用的基本手段可以用编码、计算和解码三板斧予以概括。   编码的目的是将语言符号转化为方便计算的数值化表示(也叫做分布式表示),比如将词投影到向量空间,形成一个向量表示。   计算的方式不善枚举,但在作用上可以粗略分为三种,第一种是对编码所得的数值化表示进行变形(深度学习过程中往往称为激活);第二种是演算(比如矩阵之间),借以实现信息融合、加权和交互等作用;第三种是参数求真,也就是训练中需要重点考虑的调参,包括数学模型本身的参数,以及人工设定的超参。  

言图科技:GPU服务器选型

微笑、不失礼 提交于 2020-05-01 07:46:11
公司简介 言图科技总部位于武汉光谷,致力于人工智能领域的自然语言处理、图像处理基础算法、软件、平台与设备研发。目前,公司拥有成熟的自然语言处理基础软件集、语义理解工具集、知识图谱工具集、智能陪练机器人、聊天机器人、情感与专注度分析工具、无人机大数据分析服务器系统等多种产品,并被多家金融集团、大型国企、科研机构与政府机关采用。公司在积极开拓市场的同时,投入大量资金进行基础研究。 公司与华中科技大学计算机学院共同组建“华中科技大学计算机学院人工智能实验室”。 而且,团队成员在自然语言处理、知识图谱、视频分析、图像处理等方面取得了较为丰富的理论成果和技术积累,已在国内外权威杂志及会议上发表论文一百多篇,比如AAAI、SIGKDD、RTSS、CIKM、IEEE TKDE、IEEE TSMC-B、IEEE TC、ACM TWEB等。 业务痛点 线下的GPU服务器,成本特别高,而且非常不灵活。 没有使用过云GPU服务器,对服务器选型比较困惑。 对GPU、Tesla P100与Tesla P4具体的参数性能与应用场景不是特别了解。 解决方案 图 1. GPU服务器选型 CPU除了负责浮点整形运算外,还有很多其他的指令集的负载,比如像多媒体解码,硬件解码等,因此CPU是多才多艺的。CPU注重的是单线程的性能,要保证指令流不中断,需要消耗更多的晶体管和能耗用在控制部分

详解百度ERNIE进化史及典型应用场景

余生长醉 提交于 2020-04-30 20:05:39
上个月,全球规模最大的语义评测比赛 SemEval 2020 结果出炉,百度基于飞桨平台自研的语义理解框架 ERNIE 一举斩获 5 项世界冠军,囊括视觉媒体的关键文本片段挖掘、多语攻击性语言检测和混合语种的情感分析。去年,ERNIE先后完成两版重大升级:ERNIE 1.0 提出知识增强的语义表示模型, ERNIE 2.0 则构建了持续学习语义理解框架,在中英文 16 个任务上超越业界最好模型。本文将为开发者详细解读ERNIE的进化史。 ERNIE 1.0 ERNIE: Enhanced Representation through Knowledge Integration[1] 是百度在2019年4月的时候,基于BERT模型,做的进一步优化,在中文的NLP任务上得到了state-of-the-art的结果。 它主要是在mask的机制上做了改进,它的mask不是基本的word piece的mask,而是在pretrainning阶段增加了外部的知识,由三种level的mask组成,分别是basic-level masking(word piece)+ phrase level masking(WWM style) + entity level masking。在这个基础上,借助百度在中文社区的强大能力,中文的ERNIE还使用了各种异质(Heterogeneous)的数据集

Python爬虫告诉你:拿下60亿流量的《惊雷》都是哪些人在听?

梦想与她 提交于 2020-04-30 17:20:06
CDA数据分析师 出品 惊雷/通天修为/天塌地陷紫金锤 紫电/玄真火焰/九天玄剑惊天变 这看起来不着边际的歌词,配上简单粗暴的蹦迪音乐。 最近,一首《惊雷》的喊麦歌曲在短视频平台火了,震惊了整个音乐圈。 但4月10日歌手杨坤却在直播中批评《惊雷》“要歌没歌,要旋律没旋律,要节奏没节奏,要律动没律动”,评价其“难听”、“俗气”。 4月11日,MC六道以原唱者的身份对杨坤的指责做出回应表示,音乐没有高低之分,称《惊雷》现在比杨坤的任何一首歌都火。一时间更是把《惊雷》推上了风口浪尖。 那么《惊雷》这首歌到底怎么样?都是哪些人在听?今天我们就用Python来给你解读。 01 拿下60亿流量 喊麦歌曲《惊雷》火了! 说道喊麦,作为近年来一种新兴的表演形式,其内容和表达方式则比较简单和浮夸,主要形式是在网上下载一些伴奏(以电音伴奏为主),跟着伴奏以简单的节奏和朗朗上口的押韵手法进行的语言表演。 更简单的说法就是,演唱时不讲究什么技法,带着伴奏对着麦喊就完事。比如之前爆火的《一人我饮酒醉》就是很具代表性的喊麦歌曲。 而喊麦歌曲也因为一味堆积看似没有关联的词,闹腾的电音,简单粗暴的唱法等,让大家各种吐槽。而在“全民抵制”喊麦的背景下,《惊雷》却火了。 从今年3月起,以《惊雷》为BGM的短视频在各大平台上迅速走红。截止到4月24日,在抖音的#惊雷#的标签页下显示共有23w个视频作品使用,产生64

[CS224n笔记] L18 Constituency Parsing

蓝咒 提交于 2020-04-30 15:01:39
最近会逐步将博客上的 CS224n-2019 笔记搬到知乎上来,后续也会新增 CS224n-2020 里的更新部分:CS224n-2020 并未更新 Note 部分,但课程的部分课件进行了教学顺序上的调整与修改(Suggested Readings 也相应变动),需要注意的是三个 Guest Lecture 都是全新的。 本文为 Lecture 18 Tree Recursive Neural Networks, Constituency Parsing, and Sentiment 和 Notes 09 Recursive Neural Networks and Constituency Parsing 的笔记。 Useful links 课程官网: Stanford CS224n || Stanford CS224n-2019 课程材料: LooperXX/CS224n-Resource || LooperXX/CS224n-Reading-Notes 课程视频: YouTube 国内视频资源: 2019版|英文字幕(仍在更新) || 2019版|英文字幕(全) || 2017版|中英字幕 如有疏漏之处,还望不吝赐教~ Lecture 18 Tree Recursive Neural Networks, Constituency Parsing, and Sentiment

机器阅读理解之多答案抽取(Multi-Span Extraction)

ぃ、小莉子 提交于 2020-04-30 14:55:36
CHANGLOG 4/10/2020,展开背景介绍和方法、优化内容组织。 前言 2019年末的时候在工作中开始尝试使用机器阅读理解做信息抽取,通过调研发现 多答案抽取领域 一直鲜有人问津。不过伴随 DROP 的横空出世,也出现了2篇关于multi-span extraction的研究,在此分享下调研成果。 目录 背景介绍 任务定义 方法 总结 1. 背景介绍 机器阅读理解(Machine Reading Comprehension,MRC)因其开放性和交互性已成为NLP领域炙手可热的方向,头部企业及高校如Google、Facebook、斯坦福等纷纷下场厮杀,在众多相关比赛如 SQuAD 上达到或超越人类水平。 SQuAD Leaderboard 尽管如此, 现有的MRC处理现实场景下的QA问题依旧能力不足。 原因有三: 现有的方法大多基于自然语言模型将问题和文档直接结合起来作为模型的输入,但由于模型一次能接受的文字输入长度有限,这么做往往会造成模型聚焦于从短段落中提取答案,而不是通过阅读整个内容页面找到合适的上下文,最后导致预测的答案并不能够很好的反映问题。 现有的中文机器阅读理解模型大多假设文档中一定有能回答问题的答案,而没有考虑如何处理无答案问题的情况,这样会导致模型的预测有所偏差。 现有的机器阅读理解模型大多假设文档中最多只有一个答案能回答问题