机器学习

论文速览|更好的预训练句子编码器(微软EMNLP 2020)

点点圈 提交于 2021-01-31 23:23:08
Title: Cross-Thought for Sentence Encoder Pre-training Paper: https://arxiv.org/abs/2010.03652 GitHub: https://github.com/shuohangwang/Cross-Thought 来源: EMNLP 2020 机构: Microsoft 这篇论文提出了 Cross-Thought,一个预训练句子编码器,为大规模NLP任务提供可复用的句子embeddings。 和直接使用整句的原始信息不同的是,该模型在大量短序列中训练基于Transformer的序列编码器,这使得模型可以自动选择最有用的信息来预测被遮盖的单词。 在问答和文本蕴含任务中,该预训练编码器表现得更出色,并在HotpotQA上通过提高中间信息检索性能而获得SOTA。 通过进一步的微调,可以在众多的NLP任务中 击败 几个有力的baselines。 <<< 左右滑动见更多 >>> <<< 左右滑动见更多 >>> <<< 左右滑动见更多 >>> 本文分享自微信公众号 - 图网络与机器学习(Graph-AI)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina

比亚迪,牛X!

你离开我真会死。 提交于 2021-01-31 23:17:57
比亚迪又开始搞事情了! 在大家印象中(包含我)比亚迪一直在汽车界的中下游(很土),但是了解到比亚迪这两年的产品后,才发现 比亚迪才是汽车界的华为! 还是先带大家看看比亚迪最近这一年发布的两款产品,先看比亚迪汉,刀片电池、智能驾驶、超级续航,可混动可纯电。 比亚迪汉只能说比亚迪终于突破了给人“土”的感觉,最近发布的超级混动给人的感觉那就是科技属性加成了。 这个产品发布后,九天时间dmi车型总预定量已经近80万辆! 对比一下蔚来、小鹏、理想一年才几万辆,特斯拉2020年50万辆。 搭载这项混动技术的PHEV车型秦Plus , 在电池亏电的状态下油耗仅有3.8L/100km, 超过混动技术鼻祖丰田! 关键:这里面所有核心技术都是比亚迪自己搞的,包含电池、三电系统、发电机! 比亚迪之所以这么牛X,被巴菲特投资,都是因为一个男人,30年前开始做的那个决定! 00 30年前 30年前,一个贫苦的年轻男人,扛着行李从安徽来到长沙,在校园的食堂里跳了一支舞。 人人以为他将成为一代舞王,他却摇身戴上中国首富的荆棘之冠。 查理·芒格曾露骨赞赏:他是爱迪生和韦尔奇的合体! 做电池,三年问鼎中国之首; 做汽车,连续八年销冠; 做电车,7年中国王者; 做口罩,一个月产能世界第一...... 像每个人一样,王传福一直在悄悄扩展边界; 和每个人不同,他不会让对手把自己轻易搞死。 商战中生存至今的比亚迪

刺激2019:从AWS和阿里云看云计算疯狂的一年

无人久伴 提交于 2021-01-31 19:27:03
云计算从业者有个不成文的条约:国外看AWS,国内看 阿里云 。 怎么个看法?AWS的 re:Invent大会 有6万多人参加, 阿里云 的杭州云栖大会有4万多人参加。这个比例竟与两家巨头的母公司市值出奇一致——亚马逊8千多亿,阿里巴巴5千多亿。 每到深秋入冬时节,全球顶级工程师都聚在拉斯维加斯和杭州进行一场朝圣之旅,汲取两位风向标大佬的思考和灵感。 如果说re:Invent是开发者的天堂,那云栖大会就是创业者的武林,无论是酷科技文化的天堂还是刀光剑影的武林,都为过去5年的云计算划上了一个完整的句号。 上云要趁早、云原生、容器、更大又更小的数据库、全自动DevOps、雾服务器、边缘计算……这些年我们早已被这些熟悉的字眼包围。 接下来马上迈入的2020年将开启下一个五年,两位A姓大佬又给我们带来了什么样的讯号? 云计算技术下沉:芯片成兵家必争之地 云厂商对算力的需求是无止尽的,尽管服务器市场已经明显转向云厂商,但这阻挡不了云厂商自己搞芯片。毕竟,谁有更强的算力,就掌握了更多的主动权。 AWS在2019 re:Invent大会上推出了基于ARM架构的Graviton2高性能处理器芯片以及机器学习芯片Inferentia,前者比X86实例的性价比高出40%。Graviton一词来自gravity(引力),意味着芯片从过去的幕后走向前台,成为吸引云计算用户的关键作用力。虽有一代芯片发布在前

本科生搞AI在线崩溃:3个月才跑通GitHub模型,太难了吧

三世轮回 提交于 2021-01-31 12:31:46
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 “机器学习,太难了!” “3个月才跑通GitHub模型代码,要崩溃了!” “还要跟博士生开会,怕了!” 发出如此绝望声音的,正是一名在读本科生,起初兴致勃勃参与了机器学习兴趣小组。 但谁曾想到,却演变成了一入ML深似海,从此半点不由人的这般境遇。 在Reddit上的一通“吐槽”,引来了网友们的高度关注。 很好奇。 一个本科生,触及了大主流的机器学习,具体发生了怎样头秃的事情? 为什么ML会让这位本科生如此痛苦? 这段“痛苦”的故事,是这样的。 一开始,这位本科生同学自告奋勇地参加了一个“机器学习小组”,而后被分配去协助一位博士生的工作。 从去年9月份开始,这位博士生就给他布置了一些与“知识图谱”相关的任务,并让他去实现。 问题从这里就开始出现了。 这位本科生,花了整整3个月的时间,才让GitHub上一些模型的代码跑通。 不仅如此,自己还苦诉道: 在此之前,我还花了无数个小时去搞懂预处理和评估相关的代码。 结果如何呢? 我现在还是搞不懂如何让这些ML代码跑起来! 本就很是苦恼,没想到让他更加崩溃的事情,来得如此猝不及防。 博士生给他提了个“更上一层楼”的要求——让他从一篇论文中,找到了另一个实现类似功能的GitHub repo。 于是,这位本科生便把现有的代码插了进去……结果可想而知,一团糟。 原地爆炸!

使用谷歌Colab Notebooks,这6个小技巧你需要掌握

允我心安 提交于 2021-01-31 11:11:27
选自Medium 作者:Iden W.机器之心编译 编辑:陈萍、杜伟 转载自: 机器之心 原文链接: 使用谷歌Colab Notebooks,这6个小技巧你需要掌握 ​ mp.weixin.qq.com 切换暗黑模式、读取 CSV 文件… 这些非常实用的小技巧为开发者使用谷歌 Colab Notebooks 提供了便利。 Google Colab 给广大的 AI 爱好者和开发者提供了免费的 GPU,他们可以在上面轻松地跑 Tensorflow、PyTorch 等深度学习框架。特别地,Colab 实时 Notebooks 在数据共享方面为广大开发者提供了便利,通过链接即可与其他的开发者共享文件。 在本文中,数据科学家 Iden W. 为读者详细地介绍了使用 Google Colab Notebooks 的小技巧,主要包括以下几个方面: 切换暗黑模式 读取 CSV 文件 栈溢出的快捷方式 启动内核 提交至 GitHub 存储库并共享 分享 Google Colab Notebooks 切换暗黑模式 如果开发者想使用 Google Colab 的暗黑模式,请点击「Tools」选项卡,然后按照下图所示的步骤进行设置。 在「settings」中,你可以单击「Site」菜单,然后选择「dark」功能,单击保存。操作完成后即可切换暗黑模式。 读取 CSV 文件 从 Google Drive

强强联合!Papers with Code 携手 arXiv,上传论文、提交代码一步到位

柔情痞子 提交于 2021-01-31 09:13:37
转自 | 机器之心 作者 | 魔王 刚刚,机器学习资源网站 Papers with Code 宣布与论文预印本平台 arXiv 进行合作,论文作者在 arXiv 上上传论文时可以同步上传官方和社区代码,这或许有助于解决论文可复现性问题。 机器学习资源网站 Papers with Code 自创立以来,凭借丰富的开放资源和卓越的社区服务,成为机器学习研究者最常用的资源网站之一。2019 年底, Papers with Code 正式并入 Facebook AI 。最近,它又有了新举措:与论文预印本平台 arXiv 展开合作,支持在 arXiv 页面上添加代码链接。 现在,arXiv 上机器学习论文摘要页面的下方出现了一个 Code 按钮,它可以链接论文相关的官方和社区代码实现: arXiv 论文页面新增的 Code 部分(Papers with Code 提供支持)。 可提供官方代码和社区代码。 如何使用? 论文作者登录 arXiv 网站,点击 Papers with Code 图标即可添加官方代码(参见下图箭头)。然后,页面转向 Papers with Code 网站,作者可以在那里添加代码。官方代码实现添加完成后,arXiv 论文摘要页面将出现官方代码(official code)部分。 Papers With Code 联合创始人 Robert Stojnic 表示:

再也不怕复现论文!arXiv携手Papers with Code,提交论文+上传代码一步到位

ぃ、小莉子 提交于 2021-01-31 08:40:27
点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 来源丨新智元 【导读】 昨日,Papers with Code宣布,arXiv网站将允许研究人员在提交论文的同时提交代码,让所有感兴趣的人可以轻松地分析、审查或者复制最先进的人工智能技术及其取得的新进展。 一周前发布的一份对人工智能产业的评估发现,研究人员提交的论文中只有15% 发表了他们的代码。 由美国康奈尔大学科学基金会维护的 arXiv 保存着来自生物学、数学和物理学等领域的预印本论文手稿,它已经成为人工智能研究人员公开分享其研究成果的最受欢迎的网站之一。 arXiv携手Papers with Code,一键复现最新论文! 预印本存储库为研究人员提供了一种分享他们工作的方式,在经历漫长的同行评审过程之前,放到著名学术期刊上进行实践。在 arXiv 上分享的代码将通过带有代码的论文提交,并且可以在每篇论文的「Code」标签中找到。 选择提交后则会自动跳转到Papers with Code网站,然后在此页面之上进行代码提交。 「arXiv 上的代码使得研究人员和实践者更容易建立最新的机器学习研究」,Papers with Code的创建者 Robert Stojnic 今天在一篇博客文章中说,「我们也希望这一变化能对机器学习之外的更广泛的计算科学产生连锁反应。科学是累积的,开放的,提供诸如代码之类的关键技术

学习资源 | NOAA连接AI与环境科学(十五)— AI促进创新:利用环境数据的新方法,

痞子三分冷 提交于 2021-01-31 05:34:56
背景动机 AI,机器学习/深度学习技术(包括深层神经网络,DNN)在许多领域和应用中取得了很大的进展,包括医药、自动驾驶、社交媒体、金融工业等。在私有领域,人工智能的准确性和可用性方面的惊人增长具有显著意义。人工智能在气象学和海洋学领域也取得了显著的进展。然而,直到最近,在环境科学领域只有很少的AI应用开发工作。 令人鼓舞的是,AI在这些领域的应用在不断增加,而且取得了令人鼓舞的结果,其中包括预测技能。随着卫星数据的不断增加以及社会依赖的增加,将会持续改善预报准确率和精度。来自高分辨率卫星和传感器,一系列新传感器,以及物联网背景下新观测设备的数据不断增加。这些数据的增加将给这些数据的应用带来极大的挑战,AI已经成为潜在的解决技术。 主要内容 用于后处理集合天气预报的神经网络。 什么是 "AI-Ready "开放数据? 利用多雷达/多传感器系统(MRMS)对GOES-R观测的降水类型进行分析 改进被动声学设备来监测库克湾濒危白鲸。 利用数值天气预报为沿海和环境利益相关者进行业务机器学习预测。 资源获取 第十五期的资料获取方式: 「好奇心Log」 公众号后台回复 NOAA15 数据处理·机器学习·可视化 行业资讯·学习资料 长按关注不迷路 本文分享自微信公众号 - 好奇心Log(Curiosity-log)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“

50经典面试题 | 附参考答案

亡梦爱人 提交于 2021-01-31 01:46:03
点击上方 “ AI算法与图像处理 ”,选择加"星标"或“置顶” 重磅干货,第一时间送达 来源:计算机视觉研究院专栏 作者:Edison_G 有兴趣的同学请学会面试答题!祝大家都可以拿到心仪的Offer! 1、请详细说说支持向量机(support vector machine,SVM)的原理 支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 2、哪些机器学习算法不需要做归一化处理? 在实际应用中,需要归一化的模型: 1.基于距离计算的模型:KNN。 2.通过梯度下降法求解的模型:线性回归、逻辑回归、支持向量机、神经网络。 但树形模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、随机森林(Random Forest)。 3、树形结构为什么不需要归一化? 因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。 按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。 4、在k

初识量化投资

放肆的年华 提交于 2021-01-30 12:02:45
什么是量化投资 出处:http://www.80soho.com/?p=333 简单来讲,量化投资就是利用计算机科技并采用一定的数学模型去践行投资理念,实现投资策略的过程; 传统的投资方法主要有基本面分析法和技术分析法两种,与它们不同的是,量化投资主要依靠数据和模型来寻找投资标的和投资策略。 量化投资主要内容 量化选股 量化选股就是利用数量化的方法选择股票组合,期望该股票组合能够获得超越基准收益率的投资行为。 量化择时 量化择时及时利用数量化的方法,通过对各种宏观,微观指标的量化分析,试图找到影响大盘走势的关键信息,并且对未来走势进行预测。 该策略收益率最高,但风险也极大,研究的难度也很高。 股指期货套利 股指期货套利是指利用股指期货市场存在的不合理价格,同时参与股指期货与股票现货市场交易,或者同时进行不同期限,不同(但相近)类别股票指数合约交易,已赚取差价的行为。 股指期货套利分为期现套利,跨期套利,跨市套利和跨品种套利。 商品期货套利 商品期货套利指的是在买入或者卖出某种商品期货合约的同时,卖出或买入相关的另一种合约,并在某个时间同时将两种合约平仓的交易方式。 统计套利 统计套利是指利用证券价格的历史统计规律继续套利,是一种风险套利,其风险在于这种历史统计规律在未来一段时间内是否继续存在。 期权套利 期权套利交易是指同时买进卖出同一相关期货