深度学习

清华开源迁移学习算法库:基于PyTorch实现,支持轻松调用已有算法

混江龙づ霸主 提交于 2020-08-14 12:05:11
  机器之心报道    编辑:魔王    作者:清华大学大数据研究中心       近日,清华大学大数据研究中心机器学习研究部开源了一个高效、简洁的迁移学习算法库 Transfer-Learn,并发布了第一个子库——深度领域自适应算法库(DALIB)。   清华大学大数据研究中心机器学习研究部长期致力于迁移学习研究。近日,该课题部开源了一个基于 PyTorch 实现的高效简洁迁移学习算法库:Transfer-Learn。使用该库,可以轻松开发新算法,或使用现有算法。   项目地址:https://github.com/thuml/Transfer-Learning-Library   目前,该项目发布了第一个子库——领域自适应算法库(DALIB),其支持的算法包括:   Domain Adversarial Neural Network (DANN)   Deep Adaptation Network (DAN)   Joint Adaptation Network (JAN)   Conditional Domain Adversarial Network (CDAN)   Maximum Classifier Discrepancy (MCD)   Margin Disparity Discrepancy (MDD)    领域自适应背景介绍   目前

NLP中的标识化

喜夏-厌秋 提交于 2020-08-14 11:06:26
作者|ARAVIND PAI 编译|VK 来源|Analytics Vidhya 概述 标识化是处理文本数据的一个关键 我们将讨论标识化的各种细微差别,包括如何处理词汇表外单词(OOV) 介绍 从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言,你就会理解!有太多的层次需要考虑,例如语法需要考虑。这是一个相当大的挑战。 为了让我们的计算机理解任何文本,我们需要用机器能够理解的方式把这个词分解。这就是自然语言处理(NLP)中标识化的概念。 简单地说,标识化(Tokenization)对于处理文本数据十分重要。 下面是关于标识化的有趣的事情,它不仅仅是分解文本。标识化在处理文本数据中起着重要的作用。因此,在本文中,我们将探讨自然语言处理中的标识化,以及如何在Python中实现它。 目录 标识化 标识化背后的真正原因 我们应该使用哪种(单词、字符或子单词)? 在Python中实现Byte Pair编码 标识化 标识化(Tokenization)是自然语言处理(NLP)中的一项常见任务。这是传统NLP方法(如Count Vectorizer)和高级的基于深度学习的体系结构(如Transformers)的基本步骤。 单词是自然语言的组成部分。 标识化是一种将文本分割成称为标识的较小单元的方法。在这里,标识可以是单词、字符或子单词。因此,标识化可以大致分为三种类型:单词

Ubuntu k80深度学习环境搭建

走远了吗. 提交于 2020-08-14 11:04:53
英伟达驱动安装 英伟达驱动下载: https://www.nvidia.cn/Download/driverResults.aspx/135493/cn/ 由于是驱动的冲突,那么自然是要杀掉和显卡结合不是那么紧密的草根板驱动nouveau了,加入黑名单是我们要做的第一件事,这样启动以后就不会默认使用草根驱动; cd /etc/modprobe.d/ # 文件夹下创建 touch blacklist-nouveau.conf vim blacklist-nouveau.conf blacklist-nouveau.conf 中加入黑名单 blacklist nouveau options nouveau modeset=0 # 更新的blacklist update initramfs -u命令得到 # 重启系统,强力保证blacklist生效 reboot # 查看是否vouveau真的被禁止掉了,如果没有任何内容出现,那么草根驱动被禁止掉了 lsmod | grep nouveau 下载NVIDIA官方的K80显卡驱动,一般驱动都是通过deb包进行安装,但是安装后会加入OpenGL的驱动,所以必须得使用.run的文件,.run文件下载地址: https://www.nvidia.cn/Download/driverResults.aspx/135493/cn/ 如果不用

“AlphaGo只是围棋高手,不会炒回锅肉!”上海交大教授正在研发“全才”机器人

主宰稳场 提交于 2020-08-14 10:28:37
   如果有一台机器人,几乎可以通过 “自学” 的方式,完成人类 80%-90% 的日常工作和任务, 你信吗?   或许你会说,人类可以做到的事,机器人为什么不可以?   但很显然,我们 如今看到的机器人,功能单一,远远达不到我们对智能的期望,也满足不了现实中对任务和场景自适应的需求。    如今,我们会根据不同的任务和场景设计各种机器人和相应的算法,但由于外部变量空间太大,同一机器人在不同任务或操作之间的可迁移性较弱,不能替人类完成各种各样的任务。   一直以来, “通用智能” 被认为是一个很好的技术解决方案 ,具备与人类同等智慧或超越人类的人工智能,能表现出正常人类所具有的所有智能行为,可以为机器人提供一个统一的模型,一直都是人工智能行业内的学者、科研机构和企业的追求。   但是, 要实现机器人在多领域内的通用,这项技术还需要一个载体 — — “通用智能本体” ,其可以在很大程度上提高机器人对不同任务的可迁移性。   事实上, 人本身就是一个通用智能本体。 要像人一样,通用智能本体需要对其所在环境(特别是操作对象)有深度的理解。   近期,上海交通大学与非夕机器人科技联合在《中国工程院院刊》上发表了 “通用智能本体” 的论文,提出基础理论概念。论文作者 卢策吾教授告诉 DeepTech,“通用智能本体是机器人(至少是通用机器人)的终极目标。通用智能本体不仅能看懂(人类的行为)

深源恒际医疗票据OCR落地九省市 服务范围覆盖过半市场

一笑奈何 提交于 2020-08-14 10:28:12
近年来,我国健康险市场规模持续保持高增长。银保监会最新统计数据显示,2019年中国健康险业务原保险保费收入6564亿元,同比增长29.75%。同时,随着民众风险保障意识的不断提升,未来健康险仍有巨大的潜在增长空间。据天风证券研报预测,未来五年内健康险复合增速将保持在20%左右。 与市场规模呈正相关,健康险理赔案件数也在逐年走高。据了解,自2015年起,健康险理赔案件数量和赔付金额正以年均20%的速度增长。因此,如何提升服务效率、优化服务体验,成为保险机构增强市场竞争力的重要抓手。 保险科技公司 深源恒际 从健康险核赔理算业务场景入手,研发了医疗票据OCR产品,基于深度学习算法下的专项模型训练,自动识别、提取医疗票据上的核心理算信息,并将结构化的信息录入理算系统,旨在通过计算机视觉替代人力作业,大幅降低人力投入、缩短业务耗时,帮助健康险提升理赔服务效率、优化理赔服务体验。 截至目前,该产品已先后在 北京、天津、上海、广东、浙江、江苏、山东、河南及河北 九省市完成落地,预估服务范围覆盖健康险过半市场。 01 切中要害 直击痛点 出于行业监管因素,目前商业医保机构无法直接获取或即时共享到投保用户的医疗信息。在涉及健康险理赔时,理算人员需要从用户提交的医疗单据上获取原始的理算数据,并将相关信息逐项录入系统,通常单个案件涉及录入的信息多达百余项。而人工录入的作业方式不够经济

百度飞桨开发者超190万,国内首个量子机器学习开发工具"量桨"面世

瘦欲@ 提交于 2020-08-14 10:27:10
  机器之心报道    参与:蛋酱、张倩、泽南    百度飞桨深度学习平台又有了大幅度的升级:飞桨企业版正式出炉,还有量子机器学习开发工具「量桨」发布。飞桨已成为国内首个,也是唯一支持量子机器学习的深度学习平台。   2020 年,人工智能商业化落地全面加速。作为国内 AI 领先者的百度,其长期高强度技术投入正在逐渐取得成果。   刚刚,在「WAVE SUMMIT 2020」深度学习开发者峰会上,百度飞桨又一次宣布了多项全新发布和重要升级。   「从去年秋季深度学习开发者峰会至今的半年时间里,飞桨有了迅速发展: 累积开发者数量已超过 190 万,服务企业数量达到 84000 家;发布模型数量已超过 23 万个 ,」百度 CTO 王海峰大会开场时表示。      这些成绩之上,是飞桨对于国内产业智能化升级做出的贡献。在新冠疫情期间,百度也进入了抗疫一线,提供了口罩检测和人脸识别、社区疫情防控系统、疫情问答机器人、基于 CT 影像的肺炎筛查等等 AI 能力。   它们也是飞桨与开发者们共同努力的结果。   在峰会上,王海峰放出了最新的飞桨版图。飞桨开源深度学习平台,包含核心框架、基础模型库、端到端开发套件与工具组件。随着企业应用的需求越来越丰富和强烈,飞桨升级了产品架构,推出飞桨企业版,助力各个企业进行 AI 创新。   百度飞桨平台的最新全景图:      现在

AAAI 2020: 时序转化为图用于可解释可推理的异常检测

☆樱花仙子☆ 提交于 2020-08-14 10:26:09
Time2Graph: Revisting Time Series Modeling with Dynamic Shapelets 原文地址 整体导读 文章提出了带有时间意识的Shapelet,除了可以挖掘时序中的异常状态之外,可以自动感知异常状态所在时间位置上的敏感度; 文章尝试捕捉不同Shapelet之间的关系,提出了通过图结构(Graph)对这种关系进行表达的方法,在挖掘异常变化轨迹的同时也具备良好的可解释性。文章发表在人工智能领域顶级会议 AAAI 2020 上 时序建模中的挑战 时间序列建模旨在发现数据中的时空依赖关系,学术界对此有广泛研究,例如异常检测[2],语音识别[3]等。 这里的关键问题是如何提取时间序列中代表性的特征 。以前的工作很大一部分从经典的特征工程和表示学习入手,这些方法具有很好的可解释性,但主要依靠人的经验,在复杂的场景下很难做到通用化。近年来随着深度学习的发展,许多工作开始尝试一些复杂的模型方法来自动的挖掘特征。然而,尽管这些方法取得了良好的效果[4,5],但由于模型的复杂度高以及难以对结果很好的解释,许多方法不能很好地满足实际工业落地的需求。 基于以上背景为出发,该文尝试通过Shapelet[6], 一种可自动挖掘具有代表特征的时序子序列的方法出发,通过分析不同Shapelet之间的关系,构建Graph进行表示

入门python有什么好的书籍推荐?python教程 python爬虫

£可爱£侵袭症+ 提交于 2020-08-14 09:37:28
Python非常灵活,让实验变得容易。解决简单问题的方法简单而优雅。Python为新手程序员提供了一个很好的实验室。 PS; 如有需要python学习资料的小伙伴可以点击下方链接自行获取 python免费学习资料 Python具有一些特征,使其成为第一种编程语言的接近完美的选择。Python基本结构简单、干净、设计精良,使学生能够专注于算法思维和程序设计的主要技能,而不会陷入晦涩难解的语言细节。在Python中学习的概念可以直接传递给后续学习的系统语言(如C ++和Java)。但Python不是一种“玩具语言”,它是一种现实世界的生产语言,可以在几乎每个编程平台上免费提供,并且具有自己易于使用的集成编程环境。最好的是,Python让学习编程又变得有趣了。 这17本Python书单让你快速掌握Python编程。 《Python神经网络编程》 [英] 塔里克·拉希德(Tariq Rashid)著本书用轻松的笔触,一步一步揭示了神经网络的数学思想,并介绍如何使用Python编程语言开发神经网络。本书将带领您进行一场妙趣横生却又有条不紊的旅行——从一个非常简单的想法开始,逐步理解神经网络的工作机制。您无需任何超出中学范围的数学知识,并且本书还给出易于理解的微积分简介。本书为美亚五星畅销书,备受关注。基于Python3.5,全彩印刷,如果只选一本神经网络图书,他是首选。

因果AI诊断模型登上nature:模拟专业医师思维,诊断罕见疾病,超越SOTA算法

霸气de小男生 提交于 2020-08-14 09:03:31
     作者 | 蒋宝尚   编辑 | 陈彩娴   如何才能提高人工智能医疗诊断的准确率?有一个答案是: 试着让人工智能像专业医师那样思考。      论文下载地址:https://www.nature.com/articles/s41467-020-17419-7#ref-CR52   8月11日,来自伦敦大学学院和英国数字医疗公司Babylon Health的研究员合作开发了依靠因果关系诊断疾病的AI系统,并在《自然通讯》期刊上发表了相关论文。   在论文中,作者提到, 因果AI系统打破了传统的根据症状诊断疾病的诊断方式,通过使用“反事实问题”缩小患者可能出现状况的范围。 显然,因果AI系统更加接近专业医师的诊断思维。   具体而言,传统的AI系统诊断方法,包括基于贝叶斯模型和深度学习的方法,都依赖于关联推理(associative inference)。例如,如果病人因为呼吸急促而住院,基于关联推理的AI系统可能将呼吸急促和超重(being overweight)联系起来,然后再将超重和2型糖尿病联系起来,从而诊断出应使用胰岛素的治疗方式。   如果专业医师(因果推断)进行对“呼吸急促”进行诊断,那么,医生可能会专注于呼吸急促和哮喘之间的联系。   关于诊断的准确率,作者在论文中介绍到:“ 我们使用了1671个临床案例作为测试集,然后将反事实算法

CVPR2020最佳学生论文分享回顾:通过二叉空间分割生成紧凑3D网格

假如想象 提交于 2020-08-14 08:59:33
  机器之心发布    机器之心编辑部       在近日举行的 CVPR 2020 大会上,最佳论文、最佳学生论文等奖项悉数公布。加拿大西蒙弗雷泽大学陈之钦(Zhiqin Chen )等人的「BSP-Net」相关研究获得了最佳学生论文奖,他们的论文题目是《BSP-Net: Generating Compact Meshes via Binary Space Partitioning》。在最新一期的机器之心 CVPR 2020 线上论文分享中,西蒙弗雷泽大学 (SFU) 博士一年级学生陈之钦以第一作者的身份向我们分享了这篇最佳学生论文。   在这项研究中,西蒙弗雷泽大学和谷歌研究院的三位研究者提出了一种无监督方法,能够通过 convex decomposition 生成紧凑的结构化多边形网格。      论文地址: https://arxiv.org/pdf/1911.06971.pdf   项目地址: https://github.com/czq142857/BSP-NET-original   多边形网格在数字 3D 领域无处不在,但它们在深度学习革命中仅扮演了配角。在学习形状生成模型这一方向上,领先方法要依赖于隐函数,并且只有经过昂贵的 iso-surfacing 处理过程才能生成网格。为了克服这些困难,该研究在 Binary Space Partitioning(BSP