深度学习

学习周记3:2019.3.4-2019.3.10

末鹿安然 提交于 2020-08-05 20:31:57
前言 这学期几乎全是硬核的算法/程序课,为了督促自己认真学习,我将每周写一篇周记。周记模板前一周保留,当周每日更新当日笔记。如有整段文字代码适合另起blog,也将链接标在周记对应的日期下。 课程: 算法设计与分析 、数字图像处理、 程序设计实习 、 游戏AI中的算法 、视觉计算与深度学习、人工智能引论及实践课(NLP)、Python程序设计与数据挖掘导论、计算机图形学 TODO List 周五算分论文Pre(DDL 周四晚 Done) 算分作业(DDL 周四晚 Done) 人工智能引论作业题(DDL 周四晚 Failed X ) 游戏AI作业题 程序设计实习跟上进度:三四周(DDL 周四晚 基本跟上,作业未写 X) OpenGL预习+图形学预习 数字图像处理看书 视觉计算与深度学习开头 程序设计实习先修算法复习(DDL 周五晚 X) GIS项目搞定(DDL 周六上午 X) 人工智能引论作业+程序设计实习作业(DDL 周五晚 X) Python机器学习开头(DDL 周日晚 Done) 吴恩达机器学习开头(DDL 周日晚 Done) 2019.3.4 课程: 算法设计与分析 、 游戏AI中的算法 、人工智能引论、计算机图形学 日记: 我检讨,忘了写了。基本属于啥事没干。 2019.3.5 课程:无 日记: 我检讨,忘了写了。基本属于啥事没干。刷了两个半竞赛。 主要是同人到了..

推荐系统概况:传统CTR 深度学习CTR GraphEmbedding 多任务学习 包括:思想、优缺点、网络结构、公式、代码实现等方面

五迷三道 提交于 2020-08-05 20:27:09
推荐系统概况:传统CTR、深度学习CTR、Graph Embedding、多任务学习 包括:思想、优缺点、网络结构、公式、代码实现等方面 传统CTR 深度学习CTR Graph Embedding 多任务学习 总结一下推荐系统使用的技术: Embedding 把稀疏特征稠密化,从而可以让下层网络融合更多的特征 Matrix Factorization 通过矩阵分解技术加入隐向量,从而提高向量的表达能力 Factoriation Machine 通过隐向量特征的交叉从而提高泛化能力 Multilayer Perceptrons 通过多层感知机,加入类似Attention、GRU、向量操作(拼接、内积、外积)、向量交叉等各种技术提高模型的泛化、记忆能力 回头再看看推荐系统的发展历程: 从CF到MF 然后发展到FM、FFM 接着发展到MLP、Graph Embedding 然后多目学习 当然,这里面可能有些是交替发展的。 我觉得推动推荐系统发展因素有: 日益规模庞大的电商类等系统带来的数据量爆发式增长,大数据技术的使用 微博、新闻、短视频等传播类爆发式增长,产品的个性化强、兴趣变换快 硬件技术GPU、TPU带来计算能力加强 业务需求越来越复杂,评价要求增多:CTR、CVR、阅读时长、多样性、惊喜度... 借鉴CV、NLP领域发展的部分技术成果, 例如:Word2vec, CNN、GRU

马蜂窝事件背后暴露出的数据风险

橙三吉。 提交于 2020-08-05 18:46:44
18年有针对马蜂窝“数据造假”的文章刷屏网络。文章指出,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评、携程等其他平台抄袭而来。作者表示,在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评。 其实,不仅旅游网站遭到网络爬虫的恶意抓取,航空、视频等也是被恶意爬取的重灾区。 18年2月,视频弹幕网站哔哩哔哩(bilibili)大量用户的视频、昵称、头像及用户评论,出现在某新成立的视频网站上,就是非法网络爬虫的盗取;而航空公司的官网上的机票、订座等信息,长期被代理公司将机票信息爬取、占座,然后在其他网站上加价销售。 网络爬虫:数据造假背后的“恶人” 网络爬虫,又被称为网页蜘蛛、网络机器人,是按照一定的规则,自动地抓取网络信息的程序或者脚本。 网络爬虫分为两类:一类是搜索引擎爬虫,一类是其他爬虫。前者是为搜索引擎从广域网下载网页,便于搜索检索,后者则是在指定目标下载信息,用于存储或其他用途。 网络爬虫不仅能够抓取网页商品、服务、文字、图片等关键的静态网页信息,还能够爬取用户评价、价格和账户等动态信息等。在知识产权日益受到重视的今天,数据是互联网平台的重要资产。网络爬虫的非法操作不仅窃取了平台的数据资产,更消耗了平台的服务和带宽资源。

使用Python+TensorFlow2构建基于卷积神经网络(CNN)的ECG心电信号识别分类(四)

为君一笑 提交于 2020-08-05 18:34:15
在上一篇文章中,我们已经对心电信号进行了预处理,将含有噪声的信号变得平滑,以便分类。本篇文章我们将正式开始利用深度学习对心电信号进行分类识别。 卷积神经网络 不论是传统机器学习,还是深度学习,分类的依据都是不同类别的数据中包含的不同特征。要进行分类识别就需要对数据的特征进行提取,但是二者的提取方式并不相同。对于传统的机器学习而言,数据的特征需要设计者或专业人员针对其特性进行手动提取,而深度学习则可以自动提取每类数据中的不同特征。对于卷积神经网络CNN而言,能够自动提取特征的关键在于卷积操作。经过卷积操作提取的特征往往会有冗余,并且多次卷积会使神经网络的参数过多不便于训练,所以CNN往往会在卷积层的后面跟上一个池化层。经过多次的卷积和池化后,较低层次的特征就会逐步构成高层次的特征,最后神经网络根据提取出的高层次特征进行分类。 另外需要指出的是,为什么在心电信号分类中可以使用CNN呢。这是因为CNN具有的卷积操作具有局部连接和权值共享的特征。 局部连接:用于区别不同种类的图片所需的特征只是整张图片中的某些局部区域,因此在进行卷积操作时使用的卷积核(感受野)可以只是几个不同小区域,而不必使用整张图片大小的卷积核(全连接)。这样做不仅可以更好地表达不同的特征,还能起到减少参数的作用。例如下图,左边是使用全连接的神经网络,右边是使用局部连接卷积核的网络。 权值共享:对于一类图片而言

腾讯技术开放日 | 全面解析腾讯会议的视频前处理算法

元气小坏坏 提交于 2020-08-05 18:19:13
在视频通话中, 视频前处理模块可以有效提升用户参与实时视频时的体验,并保护用户隐私,主要包括虚拟背景、美颜和视频降噪等。腾讯会议在视频前处理场景下,遇到哪些技术难点,如何进行优化?【腾讯技术开放日 · 云视频会议专场】中,腾讯云高级工程师李峰从算法和工程优化的角度进行了分享。 视频前处理场景探索 视频是连续的,在转播的时候需要经过编码和解码的流程,所以视频处理需要分为前处理和后处理。所谓前处理就是指编码前的视频处理,比如背景虚化。 所谓后处理就是指解码后的视频处理,比如视频超分。 有哪些前处理算法可以应用在视频会议的处理场景下呢?理想情况下,多多益善,能够想到的都可以落地,但是考虑到会议场景的计算资源非常有限,而且要不影响其它高优先级的服务,所以需要挖掘用户最迫切的需求,利用有限的计算资源为用户提供更好的视频体验。 数据分析发现会议场景下大家开摄像头的比例不是很高,我们分析主要有三个原因:第一担心泄漏隐私,第二不够自信,第三画质不好。针对这几个点腾讯会议陆续推出了虚拟背景、美颜、视频降噪、暗场景增强等一系列的处理算法。 虚拟背景可以很好的保护用户隐私,创造一个公平的环境,这里贴了一个用户的反馈,这是一个在线课堂老师反馈虚拟背景可以为许多孩子取消歧视,让家庭背景、家庭条件不再成为孩子的负担。美颜的话,相信大家都是非常了解,也是经常用的,它可以鼓励大家参与到视频通话的场景中来

AlphaLife: 像AI一样思考人生

…衆ロ難τιáo~ 提交于 2020-08-05 15:23:46
前言 很早以前就想过这个问题: AlphaGo,AlphaStar这么强,我们人是否能反过来向它们学习一下? 然后我就想了很多,总结出看起来还挺不错的一些人生准则。今天先抛砖引玉弹两个准则,如果大家感兴趣,我可以多写一些。 特别注明:每个人都不一样,下文仅供参考。 准则 1:给自己设定一个明确的远大的又喜欢的人生目标 我们知道深度强化学习最基本的概念就是有一个Reward来引导智能体学习,到达某一个目标。比如AlphaGo就是下围棋要赢,AlphaStar就是打星际要赢,那么AlphaLife就是人生要赢 人生会复杂很多,每个人都会有不同的目标。所以,给自己设定一个明确的目标是必须的。 古人云:志当存高远! 易经说要知崇礼卑: 桥水基金Ray Dalio的原则:设定Audacious Goals 大胆的目标 乔布斯说:我们要做我们所爱的事,找不到就一直找下去! 这条准则基本上是正确的,从古到今,成大事的人都先要立大志,并且这个大志最好就是我们喜欢的事情。 虽然这条准则简直是一条废话,但是现实世界中确实并不是每个人都有明确的人生目标。毕竟大部分人都是普通人,生活尚且不易,谈何理想? 但这里,我们想说的是,即使生活足够艰难,目标还是要有的。因为没有目标,也就不可能有未来了。 这里我很乐意分享我的人生目标: 推动虚拟世界和机器人的革命,使人类获得前所未有的精神自由和生存自由

胡事民:计图的创新与探索|YEF2020

生来就可爱ヽ(ⅴ<●) 提交于 2020-08-05 14:57:42
      作者 | 蒋宝尚    编辑 | 丛 末   CCF青年精英大会YEF2020将于今年6月5日-7日召开。与50+国内外学术及产业界顶级专家相约8大论坛会场,共谋激变格局下的发展之道。   机器学习平台是人工智能的核心技术,其能够负责机器学习模型的训练和推理;能够管理着人工智能应用所需的大规模数据和模型;可以负责底层计算设备调度以及资源申请。所以,这项技术对人工智能的重要性不言而喻。   计图(Jittor)作为中国高校第一个开源的机器学习框架,在3月份发布之后,开发者们在社交媒体平台上对其满是赞誉。5月30日,第一次计图深度学习研讨会在线上召开。   在会上,清华大学教授、CCF 副理事长胡事民教授谈到了他做这件事情的初心: 破局,即打破国外TensorFlow和PyTorch独大的局面,避免“卡脖子”困境 。   6月6日,在中国计算机学会(CCF)主办的中国计算机学会青年精英大会(CCF YEF)上,胡事民教授将会再度登场做《统一计算图:机器学习框架“计图”的创新与探索》的报告,详解计图所做的创新与探索,以及高校研究者将如何参与机器学习框架的更新迭代的相关分享,精彩内容不容错过!   为帮助更多爱好者在参会前更多了解计图的相关信息,AI科技评论根据胡事民教授的近期分享进行了整理:   “中国在人工智能领域已经跻身于世界前列,但发展不均衡也是不争的事实。   

让真人照片说话算什么?Adobe新研究让插座都能开口说话

╄→尐↘猪︶ㄣ 提交于 2020-08-05 13:52:32
  机器之心报道    参与:魔王    不仅让真人图像开口说话,油画、素描、漫画等都能动起来!   给出一张面部图像和一段音频,能做什么?AI 有办法,比如让图像中的人开口说话!   此前,机器之心报道过三星人工智能研究中心和伦敦帝国理工学院提出的新型端到端系统,仅凭一张人脸照片和一段音频,就可以生成新的讲话或唱歌视频。   最近我们发现了一项类似的研究,马萨诸塞大学阿默斯特分校、Adobe 研究院等机构提出了一种叫做 MakeItTalk 的新方法,不仅能让真人头像说话,还可以让卡通、油画、素描、日漫中的人像说话。      论文链接:https://arxiv.org/pdf/2004.12992v1.pdf   不信就来看看效果吧!   我们首先看一看真人图像的动态化效果。      看起来不错,那么卡通画呢?         给我一个插座,我能让他成精!   还有油画。      如果我想让图像中的人物摇头晃脑高谈阔论,或者保持沉静端庄呢?      动图 get 不到声画同步效果?请戳下面这个视频:   那么,这是如何做到的呢?   之前的方法往往学习音频和原始像素之间的直接映射进而创建人物的说话动态,而这项研究提出的方法 将输入音频信号中的内容和说话人身份信息分离开来 :音频内容用来稳健地控制嘴唇及周围区域的运动;说话人信息则决定面部表情的细节和人物的头部动态。  

神经网络剪枝,知识蒸馏,以及模型优化设计

痞子三分冷 提交于 2020-08-05 13:06:20
一.神经网络压缩 在如今人工智能的浪潮之下,深度学习在不少领域都取得了不错的成果。但是目前在边缘计算,物联网设备上的算力相比于我们的台式计算机还不太充足,我们在计算机上用于拟合的神经网络参数过多,不太适合运行在算力较弱的设备上,比如无人机,手机,平板电脑,自动驾驶汽车等等。因此我们需要将在计算机上训练好的神经网络通过某种技巧将其进行压缩,减少模型的参数,这样训练好的模型就可以迅速在这些边缘计算的设备上部署,同时达到和计算机上训练模型几乎一致的效果。比如我们常用的图像分类的模型VGG,通过改良后的MobileNet,计算量减少了10倍,输出的准确度结果甚至超越了AlexNet,准确率比Google InceptionNet也只少了0.7个百分点。那么我们有什么方法进行神经网络的压缩呢?目前比较常用的则是神经网络的剪枝,知识蒸馏,以及模型优化设计者三个方法。 二.神经网络剪枝 其实我们拟合的神经网络,很多网络的参数都过于多了,有些神经元在对结果进行的预测的时候并没有什么用,甚至是具有负面的作用。因此我们需要将其“ 拆除 ”。 拆除网络当中某些参数的方法如下: 1.剪掉权重weight约等于0的weight,让两个神经元之间失去连接 2.查看某个神经元经过activation之后的输出是否接近于零,如果接近于零,则剪掉这个神经元 3.在修剪完整个网络之后,识别的准确度肯定会下降

手把手教你Web 应用防火墙设置主动防御

两盒软妹~` 提交于 2020-08-05 12:37:23
云栖号快速入门: 【点击查看更多云产品快速入门】 不知道怎么入门?这里分分钟解决新手入门等基础问题,可快速完成产品配置操作! 网站接入Web应用防火墙后,您可以为其开启主动防御功能。主动防御采用阿里云自研的机器学习算法自主学习域名的合法流量,并自动为域名生成定制化的安全防护策略,防御未知攻击。您可以根据实际需求调整主动防御的防护模式和规则。 前提条件 已开通Web应用防火墙实例。更多信息,请参见 开通Web应用防火墙 。 已完成网站接入。更多信息,请参见 添加域名 。 包年包月开通的Web应用防火墙实例,实例套餐必须是旗舰版及以上规格。更多信息,请参见 版本功能说明 。 背景信息 传统的Web攻击防护基于安全检测规则。主动防御则通过无监督学习的方式对域名的访问流量进行深度学习,并根据机器学习算法模型为不同访问请求打分,标记正常分值。在请求分值的基础上,主动防御能够定义域名的正常访问流量基线,并基于此生成定制化的安全策略。通过将流量分层的方式,有机地结合主动防御与Web应用防火墙的其它安全检测体系,能够为域名提供更加全面的攻击防护。 操作步骤 1.登录 Web应用防火墙控制台 。 2.在顶部菜单栏,选择Web应用防火墙实例的资源组和地域( 中国内地、海外地区 )。 3.在左侧导航栏,单击 防护配置 > 网站防护 。 4.在 网站防护 页面上方,切换到要设置的域名。 5.单击