深度学习

腾讯技术开放日 | 全面解析腾讯会议的视频前处理算法

跟風遠走 提交于 2020-08-08 17:17:29
在视频通话中, 视频前处理模块可以有效提升用户参与实时视频时的体验,并保护用户隐私,主要包括虚拟背景、美颜和视频降噪等。腾讯会议在视频前处理场景下,遇到哪些技术难点,如何进行优化?【腾讯技术开放日 · 云视频会议专场】中,腾讯云高级工程师李峰从算法和工程优化的角度进行了分享。 视频前处理场景探索 视频是连续的,在转播的时候需要经过编码和解码的流程,所以视频处理需要分为前处理和后处理。所谓前处理就是指编码前的视频处理,比如背景虚化。 所谓后处理就是指解码后的视频处理,比如视频超分。 有哪些前处理算法可以应用在视频会议的处理场景下呢?理想情况下,多多益善,能够想到的都可以落地,但是考虑到会议场景的计算资源非常有限,而且要不影响其它高优先级的服务,所以需要挖掘用户最迫切的需求,利用有限的计算资源为用户提供更好的视频体验。 数据分析发现会议场景下大家开摄像头的比例不是很高,我们分析主要有三个原因:第一担心泄漏隐私,第二不够自信,第三画质不好。针对这几个点腾讯会议陆续推出了虚拟背景、美颜、视频降噪、暗场景增强等一系列的处理算法。 虚拟背景可以很好的保护用户隐私,创造一个公平的环境,这里贴了一个用户的反馈,这是一个在线课堂老师反馈虚拟背景可以为许多孩子取消歧视,让家庭背景、家庭条件不再成为孩子的负担。美颜的话,相信大家都是非常了解,也是经常用的,它可以鼓励大家参与到视频通话的场景中来

DSW:面向AI研发的集成开发平台

寵の児 提交于 2020-08-08 17:08:26
发布会传送门 产品详情 云原生技术,注重用户体验,提升研发效率 环境搭建是算法研发过程中的重要一环,这里除了硬件选型外,软件环境的安装配置,后续升级往往会耗费不少时间。DSW借助阿里云ECS,Docker和Kubernetes等云原生技术,能够在2,3分钟内帮用户完成环境搭建。用户可以根据算法需要和成本考虑, 选择阿里云ECS提供的包括CPU和异构计算GPU在内的所有资源规格。不仅支持预付费,还支持后付费。 DSW还配置了10多种适用于不同AI场景的典型软件环境配置, 包括Tensorflow和PyTorch等主流训练框架的不同版本组合,供用户选择。作为高度开放的开发环境,DSW开放sudo权限给用户、支持任意第三方库安装。 为了满足不同水平层次和开发习惯的算法用户,结合可视化,交互式编程和命令行输入,DSW提供了3种编程入口:WebIde适用于工程化要求比较高的项目;JupyterLab适用于快速POC试验;Terminal入口可用于快速执行Shell命令,运行程序和简单的编辑等。 DSW还开发和预装了各种JupyterLab和WebIDE插件, 比如广受深度学习开发者喜爱的可视化工具Tensorboard,用户在DSW内通过Launcher,Commands打开,甚至还可以使用%tensorboard魔法命令直接在Notebook中开启等多种方式使用Tensorboard

大白话5分钟带你走进人工智能-第40节神经网络之调优神经网络的超参数

时光毁灭记忆、已成空白 提交于 2020-08-08 15:57:23
神经网络有着灵活性,同时也是算法的主要缺点:需要有许多超参数需要去调节。 比如隐藏层及神经元个数,轮次,每一轮次给多少数据,学习率,对于神经网来说,有很多超参数可以调节。 层数,每层的神经元数,在每层使用的激活函数,初始化权重的逻辑,等等 你怎么知道哪种组合最适合你的任务? 站在机器学习角度来说,可以去使用grid search,cross validation就是交叉熵验证加上栅格搜索,但是它在深度学习里用的并不多,它特别的费时间,它要跑很多遍。 在深度学习里就是奔着过拟合去调,调过了只是说明结果已经出现过了,就是再把它存一下就可以了。 隐藏层数的调节会带来什么样的优点和缺点? 对于许多问题,你可以一开始只设置一个隐藏层,就可以获得不错的效果, 比如咱们DNN里面只设置两个隐藏层,就已经获得了不错的效果。 对于复杂的问题,我们可以在隐藏层上使用足够的神经元就行了。在很长一段时间内人们满足了,而且并没有去探索更深层次的神经网络。 其实就是一开始人们就用一个隐藏层,再隐藏层上加神经元,就已经可以来解决许许多的问题了。 但是深度这些网络有更高效的参数效率,神经元个数可以指数倍减少,并且训练起来更快。 比如前面mnist里面有784个输入,经过h1一个隐藏层400个神经元,最后输出有10个神经元, input到h1之间,它的w矩阵是784*400, 313600,h1到output

阿里副总裁"人设"翻车:30岁成AI顶尖科学家,但我很懒

我是研究僧i 提交于 2020-08-08 15:55:10
这 是微笑哥8月第1次 人物分享。 全文4000字,阅读 请谨慎。 作者 | 云游小生 来源 | 纯洁的微笑 转载授权 (ID:keeppuresmile) 贾扬清一度担心自己毕业就失业。 当他站在台上,以阿里巴巴副总裁的身份开始演讲时,世界开始认识这个年仅35岁的年轻人。 如果走在马路上,或者在杭州街边,你遇见他,他可能跟其他程序员一样,格子衫、双肩包和一张羞赧的笑脸。 看上去他普通的不能再普通了,如果你知道他的经历,一定惊为天人。 01 清华也沮丧 刚从学校毕业,贾扬清就进了谷歌,头上顶着研究科学家的光环,埋头搞AI。 谷歌呆了两年,跳槽Facebook,做了AI架构总监。 Google、Facebook、亚马逊,科技圈里的明星企业,也被称为“顶尖科学家收割机”,更是公认硅谷薪水最高的公司。 当AI圈里的人还在争论,贾扬清会不会回来报效祖国,他已经悄悄成了阿里副总裁,花名——去掉偏旁三点水:扬青。 写代码,38岁并不是最好的年纪。不是整日担忧中年危机的降临,就是担心头顶仅存的稀疏头发。 贾扬清今年38岁,头发依然茂密,中年似乎没有危机,只有转机。 1982年,贾扬清出生于绍兴上虞,父母都是中学语文老师。 老师的孩子不一定爱读书,但一定会寂寞。别的孩子回家有父母,但老师的孩子只有老师。 在那个没有网络的年代,看书是满足对世界好奇的唯一方法。学会识字,贾扬清就经常一个人安静看书。

07-noderepr 图机器学习之图表征学习

狂风中的少年 提交于 2020-08-08 15:52:39
网络中的机器学习 节点分类 链接预测 机器学习的生命圈需要特征工程 网络的特征学习——特征向量 embedding network embedding的意义 节点的表征 节点的相似度衡量→网络相似度衡量 网络信息编码,生成节点表征 用途:异常检测,属性预测,聚类,关系预测 例子:deepwalk 难度:当前的深度学习视为序列或网格数据而设计的,但网络结构比这些更复杂,没有固定的空间结构,没有固定的顺序,是动态的,并且有多类特征 Embedding Nodes 假设我们有图G,V是节点集合,A是邻接矩阵, 将节点编码,编码后的向量计算得到的相似度与原网络的一致 因此需要定义一个编码器,以及计算节点相似度的函数,并优化encoder 浅层encoding,有一个大矩阵,存储各类节点的向量,encoder只是look-up,类似于word embedding 常见的方法:deepwalk,node2vec,transE 如何定义节点相似性 例子:若两个节点的embedding相似,那么在物理结构上,他们:相连?有相同邻居?相似的结构角色?等 随机游走→node embedding 随机游走:从一个节点出发,随机选择一个邻居节点,游走到该节点,再重复上述步骤。经过的节点组成的序列即为图的random walk 公式表示节点u,v在random walk中共同出现的概率 步骤: 1.

PyTorch应用:用ResNet进行交通标志分类

送分小仙女□ 提交于 2020-08-08 15:41:19
德国交通标志识别基准数据集:可能是自动驾驶汽车领域最受欢迎的图像分类数据集。 自动驾驶车辆需要对交通标志进行检测和分类,以了解应用于路段的交通规则。也许,这个数据集太小而且不完整,无法用于实际应用。不过,它是计算机视觉算法的一个很好的baseline。 数据集链接: [http://benchmark.ini.rub.de/?section=gtsrb&subsection=about] ▌数据集 数据集由两部分组成:训练集和测试集。 训练集包含39209张交通标志图片, 共分为43类,例如停车标志,自行车穿越和速度限制30 km / h。 德国交通标志识别数据集图像的例子 数据集的样本类别非常不均衡(imbalanced)。 例如,“速度限制(50 km / h)”符号有1800个样本,但“危险曲线向左”符号只有168个。 测试集具有12630张图片。2011年IJCNN就是用这个数据集进行了一场比赛. 您可以从官方网站下载数据集。 http:// benchmark.ini.rub.de/? section=gtsrb&subsection=dataset ▌实验方法 我尝试使用在ImageNet数据集上预训练的ResNet34卷积神经网络来进行迁移学习。 我在fast.ai最新版本的“ 深入学习编码器 ”课程中学到了解决计算机视觉问题的方法

云计算与星辰大海的结合——不要回答,来自百亿光年外的未知信号

回眸只為那壹抹淺笑 提交于 2020-08-08 14:46:45
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 今年在疫情的影响下,各国的经济发展都遇到了一些困难,甚至除中国以外的主要经济体都会进入了负增长的情况,不过越是这样的时候,越不能把眼光放在眼前的苟且,我们头上的星辰大海依旧会给我们带来希望。 中国天眼捕捉到了罕见的快速射电暴三连闪,发现了来自宇宙深处的快速射电暴,根据目前的数据分析,这个脉冲信号源很可能来自于上百亿光年!熟悉《三体》的读者肯定会知道,这次发现的脉冲信号不太像是自然天体所发出的,因此这个脉冲信号的背后很可能是地外生命随手扔的“漂流瓶”? 对于这样的信息,黑暗森林法则一再提示人类,“不要回答”,但出于对远方星空的向往与好奇,人类往往执着于向远方传播我们的存在着的信息。 Fast天眼天体信号的捕获神器 我想IT人可能都不知道,贵州有这么一个神器FAST中国天眼-世界上最大单口径、最灵敏的射电望远镜。 FAST是一款500米口径球面射电望远镜(Five-hundred-meter Aperture Spherical Telescope),简称FAST, “天眼”由主动反射面系统、馈源支撑系统、测量与控制系统、接收机与终端及观测基地等几大部分构成, 1994年我国天文学家南仁东于“天眼”构想,前后历时22年于于2016年9月25日落成启用。尤其值得一提的是

GAITC专题论坛丨张俊林:AI时代下大规模机器学习的应用

偶尔善良 提交于 2020-08-08 12:54:42
  7月26日,由中国人工智能学会主办、新浪新闻联合浙江大学承的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕,新浪集团首席信息官、新浪AI媒体研究院院长王巍,浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席。    新浪微博机器学习团队AI Lab负责人张俊林本次专题论坛上,与来自业界、学术界的嘉宾们分享了《机器学习在微博的应用》。      图注:新浪微博机器学习团队AI Lab负责人张俊林作主题演讲。    张俊林提到,在新闻场景中,或者微博场景中,实时模型的在线学习非常重要。用户兴趣可能会非常快速的发展变化,尤其是在视频的场景下。作为机器学习模型,如何更快捕获到用户行为、兴趣的变化?如果把兴趣点体现到模型中,并实时更新,那么再做下一刷的时候,新兴趣可能就体现出来,这就是所谓的实时模型。    他认为,在当前日益激烈的竞争环境下,以大数据+深度模型的新技术对于推动用户进一步增长非常重要。    以下为张俊林演讲实录,内容经编辑略有删减:    尊敬的各位嘉宾,网上的朋友大家好,首先我个人非常感谢论坛主席能够提供这么好的机会让我来给大家分享一下人工智能在微博中的应用。    大家都知道,新浪新闻和新浪微博,应该说是我们公司在AI时代下大环境的变迁情况下两个典型的个性化的应用。在这种个性化的推荐场景下

请问,深度残差网络已经那么厉害,让我们改进图片分类的研究生从哪里创新?

主宰稳场 提交于 2020-08-08 11:08:25
请问,深度残差网络已经那么厉害,让我们改进图片分类的研究生从哪里创新? - amaze2的回答 - 知乎 https://www.zhihu.com/question/265693414/answer/1314522101 也许可以从其他领域的深度学习方法,获得一些灵感。 例如,残差收缩网络是残差网络ResNet的一种改进,原本是用在含噪声的振动信号上,实现旋转机械的智能故障诊断。 首先,残差收缩网络就是将信号降噪领域的软阈值函数,引入ResNet中,作为一个非线性的层。如果不了解软阈值函数的话,可以去搜一下Soft Threshlding,会搜到这一篇:DL Donoho. De-noising by soft-thresholding[J]. IEEE transactions on information theory, 1995. 软阈值函数的公式如下: 然后,借助类似Squeeze-and-Excitation Network的子网络,来自动设置软阈值函数所需要的阈值。残差收缩网络的基本模块见下图: 如果图片中含有很多与标签无关的杂物或者噪声,或许可以尝试一下残差收缩网络。 文献:Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, Michael Pecht, Deep residual shrinkage