自然语言处理

229页CMU博士张昊毕业论文公布,探索机器学习并行化的奥秘

本小妞迷上赌 提交于 2020-10-27 09:53:46
  机器之心报道    机器之心编辑部    CMU 机器人研究所张昊(Hao Zhang)博士论文新鲜出炉,主要围绕着机器学习并行化的自适应、可组合与自动化问题展开。   随着近年来,机器学习领域的创新不断加速,SysML 的研究者已经创建了在多个设备或计算节点上并行机器学习训练的算法和系统。机器学习模型在结构上变得越来越复杂,许多系统都试图提供全面的性能。尤其是,机器学习扩展通常会低估从一个适当的分布策略映射到模型所需要的知识与时间。此外,将并行训练系统应用于复杂模型更是增加了非常规的开发成本,且性能通常低于预期。   近日,CMU 机器人研究所博士张昊公布了自己的博士学位论文《机器学习并行化的自适应、可组合与自动化》, 旨在找出并解决并行 ML 技术和系统实现在可用性和性能方面的研究挑战 。   具体而言,该论文 从可编程性、并行化表示、性能优化、系统架构和自动并行化技术等几方面对分布式并行 ML 展开了研究,并认为分布式并行机器学习可以同时实现简洁性和高效性 。此外,该论文表明,并行 ML 的性能可以通过生成自适应 ML 模型结构和集群资源范式的策略实现大幅度提升,同时通过将「如何并行化」这一核心问题形式化为端到端优化目标以及构建可组合分布式 ML 系统来自动优化这类自适应、自定义策略,进而可以解决可用性挑战。   论文链接:https://www.cs.cmu.edu/

用BERT夺腾讯广告算法大赛50万元大奖,这是冠军团队的解决方案

爷,独闯天下 提交于 2020-10-27 07:28:30
  机器之心报道    编辑:小舟、蛋酱    这三位程序员,用 BERT 捧走了 50 万人民币的高额奖金。   8 月 3 日,一年一度的腾讯广告算法大赛在深圳腾讯滨海大厦举办。   一直以来,腾讯广告都在不断寻找更为优秀的数据挖掘和机器学习算法。这场备受瞩目的算法盛事,今年已经是第四届。每一年的比赛都会吸引上万人参加,还催生出一个小型算法社区。   最终,由三位年轻程序员组成的 DYG 团队捧走了冠军 7 万美金(近 50 万人民币)的高额大奖。从初赛冠军、复赛冠军,再到最佳答辩,这三位程序员究竟靠的是什么?   DYG 团队由来自武汉大学计算机科学硕士、算法工程师王贺,中山大学 - 微软研究院联合培养博士生郭达雅以及多次荣获国内 NLP 和数据挖掘比赛 TOP 名次的梁少强组成。值得一提的是,前两位选手同时也是 2019 年腾讯广告算法大赛的冠军得主。      左起:腾讯广告副总裁蒋杰,「DYG」战队王贺、郭达雅、梁少强。    比赛题目   今年腾讯广告算法大赛的题目是「广告受众基础属性预估」,和以往比赛分析广告转化率、预估曝光效率的传统思路不同,这次的赛题是一种逆向思考。   通常认为人们对于广告的偏好会因年龄和性别的不同而有所区别,许多行业的实践者已经验证了这一假设。但大多数采用的方法是在已有这些属性之后进行区分推荐,随后对比推荐效果。   而今年的赛题

业界首个!阿里云开源面向NLP场景深度迁移学习框架EasyTransfer

荒凉一梦 提交于 2020-10-27 04:49:43
     近日,阿里云正式开源了深度迁移学习框架 EasyTransfer ,这是 业界首个 面向NLP场景的深度迁移学习框架。    开源链接:https://github.com/alibaba/EasyTransfer   该框架由阿里云机器学习PAI团队研发,让自然语言处理场景的模型预训练和迁移学习开发与部署更加简单和高效。   面向自然语言处理场景的深度迁移学习在现实场景里有巨大的需求,因为大量新的领域不断涌现,传统的机器学习需要对每个领域都积累大量训练数据,这将会耗费大量标注的人力与物力。深度迁移学习技术可以将源领域学到的知识迁移到新的领域的任务,进而大大减少标注的资源。   尽管面向自然语言场景的深度迁移学习有很多的需求,目前开源社区还没有一个完善的框架,而且构建一个简单易用且高性能的框架有巨大挑战。   首先,预训练模型加知识迁移现在是主流的NLP应用模式,通常预训练模型尺寸越大学习到的知识表征越有效,然而超大的模型给框架的分布式架构带来了巨大挑战。如何提供一个高性能的分布式架构,从而有效支持超大规模的模型训练。   其次,用户应用场景的多样性很高,单一的迁移学习算法无法适用,如何提供一个完备的迁移学习工具来提升下游场景的效果。   第三,从算法开发到业务落地通常需要很长的链路,如何提供一个简单易用的从模型训练到部署的一站式服务。   面对这三大挑战

BAT机器学习面试153题:SVM xgboost 特征工程你都会么

瘦欲@ 提交于 2020-10-26 22:43:52
前言 本博客曾经在10~13年连续4年整理过各大公司数据结构和算法层面的笔试题、面试题,很快,2014年之后,机器学习大伙,很多公司开始招AI方面的人才,很多同学也会从网上找各种各样的机器学习笔试题、面试题,但和数据结构方面的题不同,AI的题网上极少。 2017年起,我和团队开始整理BAT机器学习面试1000题系列,近百万人开始追踪,目前七月在线官网/APP的题库已聚集AI笔试面试题4000题,今日起,本blog会按照机器学习、深度学习、CV、NLP、推荐系统等各方向精选相关的面试题,供大家找工作中随时查阅、复习。毕竟一般而言,进大厂讲究以下三方面的能力 coding能力,这是最基本的能力,包括数据结构和算法,说白了,coding能力扎实,无论干IT还是干AI,都不会太差,但很多人会忽略这方面的能力,比如AI各模型学的滚瓜烂熟,但面试让十分钟写个快速排序 迟迟动不了手,基本进不了大厂了; 机器学习、深度学习方面的能力,16年起随着AlphaGo的横空出世,深度学习瞬间横扫各个领域(下一篇blog会精选深度学习79题),这里面的重点包括各个模型,比如:决策树、随机森林、xgboost、SVM、特征工程、CNN、RNN、LSTM等等; 根据不同业务场景的技术能力,比如对业务的理解、建模,当然不同方向会用到不同的技术,比如CV、NLP、推荐系统(后续的blog也会精选这几个方向的面试题)

斐讯k2刷固件记录 版本22.6.512.75(最新2020)

会有一股神秘感。 提交于 2020-10-26 12:50:30
尝试直接升级或降级 刷固件需要先刷breed。开始直接尝试系统自带的升级固件方式. 结果: 失败(原因:不安全的固件) 结论: 系统自带的升级固件的方式刷不了bread, 经过一番搜索,发现要先破解telnet 1.破解telnet 原来telnet不仅仅只是测试端口、还可以登上服务器. 简单来说就是, 系统设置、高级设置、定时更新、修改05元素对应的值为: “05 | /usr/sbin/telnetd -l /bin/login.sh” 点击网页上的保存,即可开启telnet。 详细过程参考 详细过程链接 此时如果一切正常那么在命令行 “telnet [路由器ip]” 就可以登陆进路由器系统。 windows需要在服务中开启telnet才行, mac也需要安装telnet( brew install telnet ) 2. 刷breed 方法1(老版本有效) 参照破解telnet的方式修改元素值为如下, 并通过保存执行。 05 | wget http://breed.hackpascal.net/breed-mt7620-phicomm-psg1208.bin 05 | mtd unlock Bootloader 05 | mtd -r write breed-mt7620-phicomm-psg1208.bin Bootloader 但是此方法不可见结果

金融科技思考笔记

社会主义新天地 提交于 2020-10-26 08:46:39
一、关于流量 渠道分类 平台引流 生态截流 金融的经营模式从以网点为驱动、以卡片为载体转变为以APP为核心。APP取代物理卡是不可逆转的时代趋势,是客户行为的进化,我们能做的就是跟上客户的脚步,把APP建设成为客户经营和服务的主平台。 二、关于AI能力建设 1、“智慧金融大脑”是数字化转型的核心驱动力 以客户体验为中心,以数据为驱动,以新技术应用为引擎,整合共享内外部数据,通过跨领域的交叉分析与深度挖掘,动态感知市场需求、经营状况、发展趋势,指导产品快速创新,优化重构流程,实现智能服务。 1)底层能力:人工智能、区块链、云计算、大数据 2)前台智能化:智能服务 (智能运营、智能营销、智能风控、智能客服、智能投顾) 3)后台数字化:智能引擎(金融大脑) 3.1)思维引擎:学习能力、分析能力、预测能力 3.2)感知引擎:听-语音识别,看-人脸识别、读-自然语言处理、说-语音合成 三、关于平台 1、光行云缴费 流量汇集、数据聚集、资金归集的战略性平台。服务BCG,发挥云缴费流量入口、综合场景平台作用,构建“生活+服务+金融”普惠金融生态圈。 云缴费综合金融方案实施策略: 1)健全账户体系(直销银行电子账户体系) 2)指定客户权益规则(与全行积分体系合作) 3)引入代销金融产品(与零售、资管类产品合作) 4)建立客户数据模型(云缴费自建客户征信体系) 5)引入融资类产品

Keras版Sequence2Sequence对对联实战——自然语言处理技术

给你一囗甜甜゛ 提交于 2020-10-26 08:23:03
今天我们来做NLP(自然语言处理)中Sequence2Sequence的任务。其中Sequence2Sequence任务在生活中最常见的应用场景就是机器翻译。除了机器翻译之外,现在很流行的对话机器人任务,摘要生成任务都是典型的Sequence2Sequence。Sequence2Sequence的难点在于模型需要干两件比较难的事情: 语义理解(NLU:Natural Language Understanding) :模型必须理解输入的句子。 句子生成(NLG:Natural Language Generation) :模型生成的句子需符合句法,不能是人类觉得不通顺的句子。 想想看,让模型理解输入句子的语义已经很困难了,还得需要它返回一个符合人类造句句法的序列。不过还是那句话,没有什么是深度学习不能解决的,如果有,当我没说上句话。 Sequence2Sequence任务简介 Sequence2Sequence是一个给模型输入一串序列,模型输出同样是一串序列的任务和序列标注有些类似。但是序列标注的的输出是定长的,标签于输入一一对应,而且其标签类别也很少。Sequence2Sequence则不同,它不需要输入与输出等长。 Sequence2Sequence算法简介 Sequence2Sequence是2014年由Google 和 Yoshua Bengio提出的,这里分别是

AI 人才缺口达 30 万,月薪 35k 却人才难觅,人才发展报告揭秘国内 AI 人才发展现状

末鹿安然 提交于 2020-10-26 05:14:22
近日,工业和信息化部人才交流中心发布了《人工智能产业人才发展报告(2019-2020年版)》 作者:刘琳来源:雷锋网|2020-08-04 09:48 收藏 分享 本文转自雷锋网,如需转载请至雷锋网官网申请授权。 人能尽其才则百事兴。 在众多的当今新兴领域中,AI、大数据无疑是最热的领域之一,也备受政府重视。在 2019 年全国两会政府工作报告,李克强总理首次提出“智能+”,并强调“深化大数据、人工智能等研发应用”。在国家层面,对 AI、大数据都有明确的规划。2017 年,国务院印发了《新一代人工智能发展规划》,提出到 2020 年,初步建成人工智能技术标准、服务体系和产业生态链,人工智能核心产业规模超过 1500 亿元,带动相关产业规模超过 1 万亿元。 但尽管如此,人工智能人才短缺仍是该技术在整个行业广泛应用的主要瓶颈。 近日,工业和信息化部人才交流中心发布了《人工智能产业人才发展报告(2019-2020年版)》(以下简称《报告》)。 AI 人才缺口达 30 万,月薪 35k 却人才难觅,人才发展报告揭秘国内 AI 人才发展现状 《报告》调研了 224 家与人工智能相关的企业,92741 个岗位样本,超 38 万个人才样本,认为在我国人工智能产业强劲的发展浪潮中,研究和应用人工智能技术的企业数量不断增加,人才需求在短时间内激增,但人工智能人才储备不足且培养机制不完善

老码农的AI漫谈

|▌冷眼眸甩不掉的悲伤 提交于 2020-10-26 05:02:43
“ 不认识整体就不可能认识局部,同样,不认识局部也不可能认识整体。” ——布莱士·帕斯卡(Blaise Pascal) AI 切实地来到了人们的身边,从迷惑到振奋,从憧憬到期盼,从百家争鸣到百花齐放,从每个人到每个组织,都在或多或少地在寻找自己的定位。作为一个从业者,曾经试图从计算机的体系结构解读AI的构成(参见《 老码农眼中的简明AI 》),试图从溯源中看到AI的成长(参见 《人工智能简史》读后 ),试图从伦理学角度审视AI的约束(参见《 人工智能伦理学的一知半解 》)...... 但是,老码农仍然妄想对AI有一个整体性的全貌,然而能力所限,原以为的AI体系架构演变成了漫谈。下面是本次漫谈的目录: AI 的诞生与三次浪潮 AI 的含义解读 AI 的技术体系 AI 的应用领域 AI 对社会的影响 AI 的未来 “治学先治史”,时光回溯,看一看AI出现在历史长河中的位置吧。 1. AI 的诞生与三次浪潮 在共和国诞生的第二年(1950年),图灵发表了一篇划时代的论文,提出了著名的图灵测试( The Turing Test)—— 在测试者与被测试者(一个人和一台机器)隔开的情况下,通过一个装置(例如 显示器与键盘)向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能

清华大学朱小燕教授新著作,《人工智能:知识图谱前沿技术》面世

瘦欲@ 提交于 2020-10-25 00:46:53
  机器之心报道    编辑:蛋酱   2020 年,人工智能技术进入更加广阔的落地期,你一定需要这本深入浅出的 “知识图谱” 书籍。      知识图谱( Knowledge Graph )以结构化的形式描述客观世界中概念、实体及其关系,将信息时代各式各样的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解的能力。知识图谱给互联网语义搜索带来了新的驱动力,同时也在自然语言处理的各种应用中显示了强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱、大数据、深度学习一起,成为信息时代人工智能发展的核心驱动力之一。   知识图谱技术是指知识图谱建立和应用的技术,是融合机器学习、认知计算、知识表示与推理、信息检索与抽取、自然语言处理、语义 Web 、数据挖掘等方向的交叉研究。知识图谱技术的核心内容包括知识抽取与构建,知识表示,知识推理,知识存储和查询,知识图谱应用等。   作为人工智能领域的重要方向之一,目前知识图谱技术已在医疗、教育、金融、证券投资、推荐等多个领域广泛应用,并发挥着重要价值。   在最新出版的《人工智能:知识图谱前沿技术》一书中,清华大学计算机系教授朱小燕等作者从知识和知识图谱的基本概念和模型出发,着重介绍了近代知识图谱相关技术的发展情况,特别是大规模数据、人工神经元网络,以及深度学习背景下有关知识表示、知识图谱构建