机器学习

完全图解GPT-2:看完这篇就够了(一)

坚强是说给别人听的谎言 提交于 2021-01-14 10:00:02
选自 http:// github.io 作者:Jay Alammar 机器之心编译 原文链接: https://mp.weixin.qq.com/s/tXMA4y1nryAlVO3cBS1LXQ ​ mp.weixin.qq.com 今年涌现出了许多机器学习的精彩应用,令人目不暇接,OpenAI 的 GPT-2 就是其中之一。它在文本生成上有着惊艳的表现,其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段语言模型的预期。仅从模型架构而言,GPT-2 并没有特别新颖的架构,它和只带有解码器的 transformer 模型很像。 然而,GPT-2 有着超大的规模,它是一个在海量数据集上训练的基于 transformer 的巨大模型。GPT-2 成功的背后究竟隐藏着什么秘密?本文将带你一起探索取得优异性能的 GPT-2 模型架构,重点阐释其中关键的自注意力(self-attention)层,并且看一看 GPT-2 采用的只有解码器的 transformer 架构在语言建模之外的应用。 作者之前写过一篇相关的介绍性文章「The Illustrated Transformer」,本文将在其基础上加入更多关于 transformer 模型内部工作原理的可视化解释,以及这段时间以来关于 transformer 模型的新进展。基于 transformer 的模型在持续演进

ICLR2021放榜!录取860篇,接受率为28.7%!

妖精的绣舞 提交于 2021-01-14 09:03:33
ICLR(国际学习表征会议)组委会今天公布了今年的论文接收结果。今年,共有2997篇论文投稿,相比去年的2594篇论文投稿,增加了15.5%。其中860篇论文被接收,接受率为28.7%,这些论文有53篇分布在Oral,114篇分布在Spotlight以及693 篇将会用Poster展示。 ICLR,全称为International Conference on Learning Representations(国际学习表征会议),2013年由两位深度学习大牛、图灵奖得主 Yoshua Bengio 和 Yann LeCun牵头创办。 ICLR成立至今仅七年,但它已被学术研究者们广泛认可,虽然在中国还没有被CCF定级,但这不妨碍被认为是“深度学习领域的顶级会议”。 投稿详情如下: ICLR 2021 Conference ​ openreview.net 机器学习/深度学习算法/自然语言处理交流群 已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号: HIT_NLP 。加的时候备注一下: 知乎+学校+昵称 (不加备注不会接受同意,望谅解) ,即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。 强烈推荐大家关注 机器学习算法与自然语言处理 账号和 机器学习算法与自然语言处理 微信公众号,可以快速了解到最新优质的干货资源

谈谈GPU与FPGA的一些看法

无人久伴 提交于 2021-01-14 07:59:00
从几个方面来介绍一下GPU和FPGA。 从 峰值性能 来说,GPU(10Tflops)远远高于FPGA(<1TFlops)。GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的,最新的GPU峰值性能可达10TFlops以上。GPU的架构经过仔细设计(例如使用深度流水线,retiming等技巧),在电路实现上是基于标准单元库而在critical path上可以用手工定制电路,甚至在必要的情形下可以让半导体fab依据设计需求微调工艺制程,因此可以让许多core同时跑在非常高的频率。相对而言,FPGA首先设计资源受到很大的限制,例如GPU如果想多加几个core只要增加芯片面积就行,但FPGA一旦你型号选定了逻辑资源上限就确定了(浮点运算在FPGA里会占用很多资源)。而且,FPGA里面的逻辑单元是基于SRAM-查找表,其性能会比GPU里面的标准逻辑单元差好多。最后,FPGA的布线资源也受限制(有些线必须要绕很远),不像GPU这样走ASIC flow可以随意布线,这也会限制性能。 除了芯片性能外,GPU相对于FPGA还有一个优势就是内存接口。GPU的内存接口(传统的GDDR,最近更是用上了HBM和HBM2)的带宽远好于FPGA的传统DDR接口,而众所周知服务器端机器学习算法需要频繁访问内存。 但是从 灵活性 来说,FPGA远好于GPU。FPGA可以根据特定的应用去编程硬件

AI 图像识别的测试

 ̄綄美尐妖づ 提交于 2021-01-14 07:37:34
随着AI 的浪潮发展,AI 的应用场景越来越广泛,其中计算机视觉更是运用到我们生活中的方方面面。 作为一个测试人员,需要紧跟上 AI 的步伐,快速从传统业务测试,转型到 AI 的测试上来。而人脸识别作为机器视觉应用场景里最普及常见的一环,因此这一篇结合AI 的架构和核心,以及人脸识别来讲一讲,AI 怎么测试,以及 AI 测试与传统测试的区别和共同点。 人脸识别和 AI的关系 先了解 AI两个基本概念。 a) 计算机视觉 也称为机器视觉,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。 最好理解的场景,比如拍一个花的照片,通过机器学习自动告知用户这是什么花。拍一个店铺的照片,机器学习自动分析出店铺的名字,以及店铺的位置。 b) 生物识别 通过计算机,与光学、声学、生物传感器、统计学的概念手段结合,利用人体固有的生理特性和行为特征进行个人身份的鉴定。比如通过人的指纹,和数据库录入的指纹比较,判断是否是同一个人。 机器视觉和生物识别都属于AI 的应用领域,机器视觉和生物识别的本质,都在于对于图像图像的识别和比对。人脸识别,则是将机器视觉与生物识别结合,对人类的面部特征应用计算机视觉的一个典型场景。 怎么测试图像识别 结合 AI 的架构和核心来分析。 1. 数据收集和处理 既然是视觉

机器学习---感知机(Machine Learning Perceptron)

…衆ロ難τιáo~ 提交于 2021-01-14 04:10:10
感知机(perceptron)是一种线性分类算法,通常用于二分类问题。感知机由Rosenblatt在1957年提出,是神经网络和支持向量机的基础。通过修改损失函数,它可以发展成支持向量机;通过多层堆叠,它可以发展成神经网络。因此,虽然现在已经不再广泛使用感知机模型了,但是了解它的原理还是有必要的。 先来举一个简单的例子。比如我们可以通过某个同学的智商和学习时间(特征)来预测其某一次的考试成绩(目标),如果考试成绩在60分以上即为及格,在60分以下为不及格。这和线性回归类似,只不过设定了一个阈值,使得其可以处理分类问题。 因此,我们定义:给定特征向量x=([x 1 ,x 2 ,...,x n ]) T 以及每个特征的权重w=([w 1 ,w 2 ,...,w n ]) T ,目标y共有正负两类。那么: 对于某个样本,如果其 wx > 阈值(threshold),那么将其分类到正类,记为y=+1; 如果其 wx < 阈值(threshold),那么将其分类到负类,记为y=-1; (注:wx是特征向量和权重向量的点积/内积,wx=w 1 x 1 +w 2 x 2 +...+w n x n ) 也就是说,上式分为两种情况:wx - 阈值(threshold)> 0 或 wx - 阈值(threshold)< 0。我们可以将目标方程式简写成:y=sign(wx+b+ ),对y的估计就是 。

韩松、朱俊彦等人提出GAN压缩法:算力消耗不到1/9,现已开源

岁酱吖の 提交于 2021-01-14 03:22:10
选自arXiv 作者:Muyang Li等 机器之心编译 机器之心编辑部 GAN 也可以大幅压缩,MIT 韩松团队的最新研究让众多研究者们为之一振。 生成模型 GAN 是机器学习领域里最为重要的发展方向之一。但这类算法需要消耗巨量算力,大多数研究者已经很难得出新成果。近年来,这一方向颇有被大型机构垄断的趋势。 但近日,来自麻省理工学院(MIT)、Adobe、上海交通大学的研究者提出了一种用于压缩条件 GAN 的通用方法。这一新技术在保持视觉保真度的同时,将 pix2pix,CycleGAN 和 GauGAN 等广泛使用的条件 GAN 模型的计算量减少到 1/9~1/21。该方法适用于多种生成器架构、学习目标,配对或非配对设置。 目前该研究的论文已被 CVPR 2020 大会收录,有关 GAN 压缩框架的 PyTorch 版实现也已开源。 项目链接:https://github.com/mit-han-lab/gan-compression GAN 压缩后的具体性能如何?在研究者们展示的 Demo 中,使用 CycleGAN 为视频中的马添加斑马条纹所需的算力不到 1/16,帧数提高了三倍,而且效果还有所提升: 值得一提的是,该研究所使用的硬件平台是英伟达的边缘 AI 计算芯片 Jetson Xavier GPU。根据官方公布的数据,Jetson Xavier 的 INT8 算力为

Python时间序列分析简介(1)

半城伤御伤魂 提交于 2021-01-14 03:09:41
实时更新的数据需要额外的处理和特殊照顾,才能为机器学习模型做好准备。重要的Python库Pandas可用于大部分工作,本教程将指导您完成分析时间序列数据的整个过程。 根据维基百科: 时间序列 在时间上是顺序的一系列数据点索引(或列出的或绘制)的。最常见的是,时间序列是在连续的等间隔时间点上获取的序列。因此,它是一系列离散时间数据。时间序列的示例包括海潮高度,黑子数和道琼斯工业平均指数的每日收盘价。 我们将看到一些重要的点,可以帮助我们分析任何时间序列数据集。这些是: 在 Pandas 中正确加载时间序列数据集 时间序列数据索引 使用 Pandas 进行时间重采样 滚动时间序列 使用 Pandas 绘制时间序列数据 在Pandas中正确加载时间序列数据集 让我们在Pandas中加载上述数据集。 由于我们希望将“ DATE”列作为索引,而只是通过读取就可以了,因此,我们必须添加一些额外的参数。 太好了,现在我们将DATE列添加为索引,但是让我们检查它的数据类型以了解pandas是作为简单对象还是pandas内置的DateTime数据类型来处理索引。 太好了,现在我们将DATE列添加为索引,但是让我们检查它的数据类型以了解pandas是作为简单对象还是pandas内置的DateTime数据类型来处理索引。 在这里,我们可以看到Pandas将Index列作为一个简单对象处理

如何协助企业IT架构转型

旧街凉风 提交于 2021-01-14 02:37:10
企业IT基础架构的重新平台化是不小的任务,重新平台化通常是由一组不断变化的关键业务驱动因素引发的,简而言之,就是目前支持企业业务的平台不能再处理和推动业务发展所需的工作负载。 数字化转型的核心是数据,数据已经成为商业中最有价值的货币。由于格式不兼容、传统数据库的局限性以及无法灵活地合并来自多个来源的数据,企业长期以来一直受到其使用数据的困扰,而新技术则可以解决这一困境。 改善软件部署模式是消除数据使用障碍的一个主要方面,更高的“数据灵活性”是需要更灵活的数据库和更具可扩展性的实时流式传输平台。目前想要为企业提供灵活的实时“数据结构”需要至少七种基础技术的相互结合。 与原先技术不同,这七种技术能够扩展以满足很多用户和用例的需求,对于企业而言,能够实现更快、更明智的决策并创造更好的用户体验。 1. NoSQL数据库 RDBMS在数据库市场上占据了近30年的主导地位。但是,面对数据量的不断增长以及数据处理速度的加快,传统关系数据库已经显示出不足。NoSQL数据库由于其速度和扩展能力而渐渐崭露头角。就文档数据库而言,从软件工程的角度提供了一个更简单的模型。这种更简单的开发模式可加快产品上市速度,并帮助企业更快响应客户和内部用户的需求。 2.实时流媒体平台 实时响应客户对客户体验至关重要。在过去的10年中,面向消费者的行业经历了巨大的破坏,这与公司对用户实时作出反应的能力不无关系。

吴恩达深度学习笔记course3 week2 测验

你。 提交于 2021-01-14 02:07:13
第 1 个问题 To help you practice strategies for machine learning, in this week we’ll present another scenario and ask how you would act. We think this “simulator” of working in a machine learning project will give a task of what leading a machine learning project could be like! You are employed by a startup building self-driving cars. You are in charge of detecting road signs (stop sign, pedestrian crossing sign, construction ahead sign) and traffic signals (red and green lights) in images. The goal is to recognize which of these objects appear in each image. As an example, the above image

浅谈DNS协议价值二

血红的双手。 提交于 2021-01-13 19:09:18
DNS协议工作原理不再赘述~~~ 知名的***检测三大模型:Kill Chain 杀生链、Diamond Model 钻石模型、MITRE ATT&CK ​​​​,其中Kill Chain杀伤链模型可以拆分恶意软件的每个***阶段,从而实现识别和阻止功能,***阶段分为7个,侦查、武器化、部署阶段、***阶段、后门植入阶段、远程控制阶段、后***阶段,其中利用DNS相关的有三个阶段: 武器化阶段:准备0-day***payload,并利用DGA生成DNS域名支撑后续***; ***阶段:引导被***者下载并执行Payload(下载Payload可能和域名URL相关); 远程控制阶段:建立C&C通道,获得指令、开始***(建立心跳、C&C通道和域名相关); 其中DGA算法是应用比较广泛的,其目的就是利用DGA算法生成域名,通过在被控端同样的计算,产生大量的域名,混淆视听,链接云端的控制端,进行命令控制或数据传输,那如何检测DGA域名呢?目前常见的方式有两种: 1、威胁情报检测 利用大数据威胁情报检测是近几年兴起的技术,其在威胁检测与安全运营占有越来越重的戏份,其检测的精准度完全取决于威胁情报的质量,而威胁情报的质量取决于数据,所以像国际大厂火眼、思科等公司,还有国内的360、阿里、腾讯等,尤其是专注于安全的360,均在这方面占有优势。 2、机器学习算法检测