深度学习

在对数据进行预处理时,应该怎样处理类别型特征?

两盒软妹~` 提交于 2020-08-10 00:46:03
02 类别型特征 场景描述 类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。 知识点 序号编码(Ordinal Encoding)、独热编码(One-hot Encoding)、二进制编码(Binary Encoding) 问题 在对数据进行预处理时,应该怎样处理类别型特征? 分析与解答 ■ 序号编码 序号编码通常用于处理类别间具有大小关系的数据。例如成绩,可以分为低、中、高三档,并且存在“高>中>低”的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值ID,例如高表示为3、中表示为2、低表示为1,转换后依然保留了大小关系。 ■ 独热编码 独热编码通常用于处理类别间不具有大小关系的特征。例如血型,一共有4个取值(A型血、B型血、AB型血、O型血),独热编码会把血型变成一个4维稀疏向量,A型血表示为(1, 0, 0, 0),B型血表示为(0, 1, 0, 0),AB型表示为(0, 0,1, 0),O型血表示为(0, 0, 0, 1)。对于类别取值较多的情况下使用独热编码需要注意以下问题。 (1)使用稀疏向量来节省空间。在独热编码下

首次引入NVIDIA GPU 迈创全新显卡正式出货:4卡16屏

对着背影说爱祢 提交于 2020-08-10 00:11:09
  今年 1 月底,曾经大名鼎鼎的显卡品牌 Matrox (迈创)低调回归,发布了全新的 Matrox D 系列多屏显卡,而且首次使用了 NVIDIA GPU 方案。将近四个月后,这款产品终于开始上市了。   Matrox 来自加拿大,成立于 1976 年,比 ATI 早了 9 年,比 NVIDIA 更是早了 17 年,2D 显卡时代声名显赫,可是进入 3D 游戏时代后逐渐落寞,本世纪初停止了 GPU 的研发,转入视频市场,产品有编解码卡、帧捕捉器、2D/3D 深度学习图像软件、多屏宝等等,此前一直与 AMD 密切合作。   新发布的 Matrox D 系列采用特别定制的 NVIDIA Quadro GPU,但具体架构和规格一直没公布,只说支持 DX12、OpenGL 4.5、OpenCL 1.2,猜测至少是帕斯卡架构。   其中,Matrox D1480 是高端型号,配备四个 DisplayPort 1.2 接口,单个屏幕最高分辨率 5120×3200/60Hz,四屏就是 6550 多万像素,而且支持四卡并行,可以单系统输出 16 块屏幕。   Matrox D1450 则是四个 HDMI 2.0,单屏最高分辨率 4096×2160/60Hz。   二者均支持独立桌面模式、拉伸桌面模式、克隆模式、Pivot 模式和边缘重叠、边框管理、EDID 管理等技术。   D1480

推荐几个(抖音/阿里/腾讯)年薪100W大佬的硬核公众号

﹥>﹥吖頭↗ 提交于 2020-08-09 23:22:53
学习如逆水行舟,不进则退; 只有坚持不断的学习,才能保持进步。 今天给大家精心挑选的这几个优质的公众号,感兴趣的可以关注。 深度学习算法和计算机视觉 ▲▲▲ 深度学习算法与计算机视觉是国内少数聚焦于计算机视觉方向的公众号。分享深度学习、计算机视觉、图像处理、机器学习、Python、人工智能等相关领域的前沿、干货笔记,立志成为全国最具影响力的计算机视觉分享平台。强烈推荐大家关注! GitHubDaily ▲▲▲ 专注于分享与计算机科学相关的学习资源、 开发工具、 技术资讯等内容。从 2015 年创建至今,获得了 IT 圈内多位知名大佬的关注,其中包括 CSDN 创始人蒋涛、天使投资人李笑来、白帽子黑客余弦,累积分享数千个优质开源项目。每次我都能从 GitHubDaily 这里获取第一手技术资讯、最热门的开源项目、以及丰富的免费编程资源。如果你也玩 GitHub,那你绝对不能错过这个公众号!关注后,后台回复「1024」可获取数百个优质项目的汇总资源。 Java之道 ▲▲▲ 有道无术,术可成; 有术无道,止于道; Java之道公众号致力于为广大Javaer传道授业解惑。 以术识道,以道御术。 本公众号主要分享Java相关的原理知识。 欢迎大家关注。 菜鸟要飞 ▲▲▲ 菜鸟要飞,专注于为程序员过滤、筛选、分享优质的技术资源。这里有学习路线、面试宝典、源码专题、技术精选、开源项目及开发工具

基于信任度的分布式自组织联邦学习

蓝咒 提交于 2020-08-09 20:42:52
总览 当前大多数的分布式/联邦学习(FL)框架都需要参数服务器来聚合本地模型更新。这些基于服务器的框架不幸地遭受了单点故障问题的困扰。另外,现有联邦学习参与方不论贡献大小都能获得同样的最终联邦模型的设定导致不公平性的产生。为了解决这些问题,[Lyu et. al. 2020] 首创了能够确保协作公平,无需可信第三方的联邦学习系统,该生态系统称为decentralized Fair and Privacy-Preserving Deep Learning (FPPDL)。 为什么联邦学习需要协作公平? 在当前的联邦学习架构中,无论参与者的贡献如何,所有参与者都可以在协作模型训练结束时收到相同的联邦模型。这可能会严重阻碍协作,并使联邦学习易受搭便车参与者的攻击。例如,几家银行可能希望一起建立模型来预测中小企业的信用度。但是拥有更多数据和更高质量数据的大型银行可能不愿意参与到合作中,因为担心较小的银行会从共享FL模型中受益并侵蚀其市场份额。没有隐私保护和协作公平性的保障会严重阻碍具有高质量和大型数据集的参与者加入联邦学习,从而对健康的FL生态系统的形成产生负面影响。 如何定义和量化协作公平性? 在联邦学习系统中,高贡献者应该获得比低贡献者更好的本地模型作为奖励。特别地,可以通过不同方的贡献(X轴)与其各自的最终模型精度(Y轴)之间的相关系数来量化公平性。[Lyu et. al. 2020

连续三年,白山再度入选Gartner全球CDN服务市场指南报告

南笙酒味 提交于 2020-08-09 19:47:03
独立咨询机构 Gartner 日前发布 2020全球CDN服务市场指南( Market Guide for Global CDN ) ,基于对技术实力、服务能力及资源覆盖的深入调研,综合评估出全球最具代表性的25家CDN服务商。 继2018年、2019年连续入选,白山云科技与 AWS、Akamai、阿里云 等领跑的云计算企业和独立CDN服务商一道,再度获得Gartner年度重磅认证。 / / 技术打底,关键性能行业领先 Gartner预测,未来5年全球企业级CDN市场将实现20%-22%的年复合增长。 多样化业务场景驱动下,企业对CDN的性能需求各有侧重。Gartner从一般网络性能、流媒体支持、API防护、边缘高级服务等维度,为企业选择CDN服务商提供全方位的参考与指导。 再度获得Gartner认可,白山在技术研发上取得的成绩功不可没。目前, 白山已实现19项核心技术突破,申请专利超500件 。持续投入研发,完善产品性能,白山在响应时间、下载速度等关键指标上超出行业平均水平。 部分CDN创新技术 例如,创新的 四维流量调度 技术,依托大数据和人工智能,结合深度学习算法,从传统二维调整为基于地理位置、访问质量、节点成本和节点容量的秒级四维调度。系统自动化实时调配资源,精细化运营,促进客户业务持续健康发展。 / / 发力边缘,打造“云边协同”能力 5G加速部署,工业互联网、车联网

英特尔开放其最大规模的神经拟态计算系统,神经容量相当于小型哺乳动物的大脑

自作多情 提交于 2020-08-09 19:37:39
  点击图片访问小程序报名参加开营仪式   一直以来,科学家和工程师们都在努力复刻人脑的工作原理,由此诞生了我们熟悉的神经网络。   在这一过程中,人们也在尝试复制感官能力,英特尔的神经拟态芯片 Loihi 就是一项最新的研究成果:它拥有 13 万个神经元(1024 核),实现了嗅觉模拟,掌握了 10 种危险品不同气味的神经表征。      图丨英特尔神经拟态研究芯片 Loihi(来源:Tim Herman / 英特尔公司)   人类的嗅觉识别看似只有闻一闻这个动作,但背后的机制非常复杂。   如果你拿起一个葡萄柚闻一闻,水果分子就会刺激鼻腔内的嗅觉细胞。鼻腔内的细胞会立即向你的大脑嗅觉系统发送信号,一组相互连接的神经元中的电脉冲就会在这个嗅觉系统中产生嗅觉。   无论闻到的是葡萄柚、玫瑰还是有害气体,你大脑中的神经元网络都会产生该物体特有的感觉。同样,你的视觉和听觉、回忆、情绪和决策都有各自的神经网络,它们都以特定的方式进行计算。    神经拟态计算的优势   神经拟态计算(Neuromorphic Computing)是一个由硬件开发、软件支持、生物模型相互交融而成的古老领域,旨在基于仿生的原理让机器拥有类人的智能。   低功耗、高容错、创造性…… 人脑有太多值得机器追赶的能力,因此也是很多计算科学家为之向往的存在。在人脑这个仅占 3% 人体质量的器官中,1000 亿个神经元携

比GPU性能提升5倍阿里云含光800云服务器正式商用

空扰寡人 提交于 2020-08-09 18:49:31
含光800云服务器,配备阿里平头哥自研神经网络加速芯片含光800,提供全球最高单芯片AI推理性能,有着同类处理器的数十倍性能;并针对业务场景做了深度优化,广泛适用于图像搜索、场景识别、视频内容识别、自然语言处理等业务,为客户提供超高性价比的推理解决方案。 阿里云城市大脑交通信号机系统使用含光800服务器处理车辆检测、品牌识别、车牌识别等算法模型,单张含光800全链路能够支持100路实时视频的分析和特征结构化数据的提取,相比GPU性能提升超过5倍。 阿里电商平台合规经营也在含光800云服务器上建立了多维度全方位的风险识别机制。在同样的算法精度下,性价比是GPU的4倍。 据悉,含光云服务器还基于阿里云自研的神龙云服务器架构,为用户提供弹性裸金属加速实例,兼顾了物理服务器的功能性能优势,以及云计算的高可用优势。开发工具采用阿里平头哥HGAI自动化开发工具,支持主流深度学习框架TensorFlow、Caffe、MXNet和ONNX。 今年3月,阿里云飞天AI加速引擎AIACC与含光800的组合,打败了Google,拿下了斯坦福大学DAWNBench ImageNet推理成本的世界第一,能效比达500IPS/W,是第二名的3.3倍。 AIACC是业界首次统一加速Tensorflow、PyTorch、MXNET、Caffe等主流开源框架的性能加速引擎,AIACC

阿里云ECS云服务器通用型g6和g5的区别以及选择建议

感情迁移 提交于 2020-08-09 18:05:35
阿里云ECS云服务器通用型g6和g5的区别以及选择建议 阿里云ECS云服务器通用型g6和通用型g5实例有什么区别?通用型g5和g6都是用于性能均衡场景,CPU内存比都是1:4,本文来说说通用型g6和通用型g5的区别以及选择方法:官方文档: 云服务器ECS共享标准型S6实例 ECS云服务器通用型g6和通用型g5有什么区别? 顾名思义,通用型g6是通用型g5的升级版,ECS云服务器通用型g6是第六代云服务器,性能全面提升的同时价格有所下调,如何选择?云E优站长博客建议选择通用型g6实例。 通用型g6云服务器是阿里云的第六代云服务器,第六代云服务器是基于第二代Intel至强可扩展处理器,睿频从上一代2.7Ghz提升到3.2Ghz,E2E计算性能有3-15%的提升;支持vnni指令集,对于深度学习的推理场景有2-4倍性能提升;虚拟化优化性能抖动,ping flood延时超过1ms的报文数<1/100万。 通用型g6和通用型g5区别对比表 综上,阿里云ECS云服务器通用型g6是通用型g5的升级版,性能有所提升,如何选择?新手站长网还是建议性价比放在第一位,虽然通用型g6是g5的升级版,但是通用型g5的性能也不差,如果通用型g5拥有更优惠的折扣,通用型g5也是可以选择的。 来源: oschina 链接: https://my.oschina.net/u/4264517/blog/4282371

学会这些 Python 美图技巧,就等着女朋友夸你吧!| 原力计划

拟墨画扇 提交于 2020-08-09 17:59:24
作者 | ZackSock 前言 Python中有许多用于图像处理的库,像是Pillow,或者是OpenCV。而很多时候感觉学完了这些图像处理模块没有什么用,其实只是你不知道怎么用罢了。今天就给大家带了一些美图技巧,让你的图美翻全场,朋友圈赞不绝口,女朋友也夸你,富贵你好厉害啊! 模块安装 我们主要使用到OpenCV和Pillow,另外我们还会使用到wordcloud和paddlehub,我们先安装一下: pip install opencv-python pip install pillow python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple pip install -i https://mirror.baidu.com/pypi/simple paddlehub pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ myqr 另外我使用的Python环境是3.7,知道这些我们就可以开始进行我们的美图之旅了。 图片美化 1、祛痘 还在为痘痘烦难,不敢拍照吗?有了这个你就不用怕了(虽然有p图软件,但是大家不要揭穿我): import cv2 level = 22 # 降噪等级 img = cv2.imread('girl

腾讯技术开放日 | 腾讯会议如何进行视频质量评估与优化?

橙三吉。 提交于 2020-08-09 15:57:35
腾讯会议系统中,视频质量是影响用户体验的主要因素,对视频质量进行评估和优化是吸引和留住用户的关键。 在开发腾讯会议质量评估系统的过程中,有哪些技术难点和相应的解决方案?在【腾讯技术开放日 · 云视频会议专场】中,腾讯多媒体实验室高级研究员王海强进行了分享。 本次分享共包括四部分,第一部分是视频质量评估的背景介绍;第二部分,介绍在视频会议这种实时通信系统中,与质量损伤相关的环节及对应的优化策略;第三部分,介绍针对腾讯会议场景所开发的基于深度学习的全参考视频质量评估算法;第四部分是围绕腾讯会议搭建的一个端到端的质量评估系统,它能够对会议进行自动化评估和监测。 什么是视频质量评估? 视频质量评估致力于评估视频的人眼感知质量 ,总的来说有两种评估方式: 主观质量评估,依赖人眼观看并打分,这种得到的分数比较精确,但是很耗时间,而且不方便大规模部署。 客观质量评估,主要是计算损伤视频的质量分数。 评价一个算法的好坏就是衡量主观分数和客观分数的相关系数,一般来说系数越高越好。 客观质量评估算法大概分三类,主要取决于是否使用无损的源视频作为参考。 全参考,比如PSNR就是典型的全参考算法,通过与源视频进行各种层面比对,来衡量损伤视频的质量。 无参考,有的算法不使用源视频,只使用接收端的视频,来衡量它自己本身的质量。 部分参考, 比如从源视频中提取一个特征向量