预测编码

大数据线性回归预测学生成绩

♀尐吖头ヾ 提交于 2019-12-22 04:34:20
通过训练集训练和测试集测试来生成多个线性模型,从而预测学生成绩,本文所有代码请点击 Github 1. 实验数据背景 1.1 数据来源 本项目的数据来源于kaggle.com,数据集的名称为Student Grade Prediction,Paulo Cortez,Minho大学,葡萄牙吉马良斯, http://www3.dsi.uminho.pt/pcortez 1.2 数据简介 该数据接近了两所葡萄牙学校的中学学生的学习成绩。数据属性包括学生成绩,人口统计学,社会和与学校相关的特征),并通过使用学校报告和调查表进行收集。提供了两个关于两个不同学科表现的数据集:数学(mat)和葡萄牙语(por) 该数据集共有396条,每列33个属性,属性简介如下: 1.学校-学生学校(二进制:“ GP”-加布里埃尔·佩雷拉(Gabriel Pereira)或“ MS”-Mousinho da Silveira) 2.性别-学生的性别(二进制:“ F”-女性或“ M”-男性) 3.年龄-学生的年龄(数字:15至22) 4.地址-学生的家庭住址类型(二进制:“ U”-城市或“ R”-农村) 5.famsize-家庭大小(二进制:“ LE3”-小于或等于3或“ GT3”-大于3) 6.Pstatus-父母的同居状态(二进制:“ T”-同居或“ A”-分开) 7.Medu-母亲的教育(数字:0-无,1

预训练语言模型整理

我怕爱的太早我们不能终老 提交于 2019-12-06 08:11:15
简介 # 2018年ELMo/GPT/BERT的相继提出,不断刷新了各大NLP任务排行榜,自此,NLP终于找到了一种方法,可以像计算机视觉那样进行迁移学习,被誉为NLP新时代的开端。 与计算机视觉领域预训练模型不同的是,其通过采用自监督学习的方法,将大量的无监督文本送入到模型中进行学习,即可得到通用的预训练模型,而NLP领域中无监督文本数据要多少有多少,2019年发布的后续研究工作(GPT2、Roberta、T5等)表明,采用更大的数据、更强大的炼丹炉可以不断提高模型性能表现,至少目前看来还没有达到上限。同时,如何缩减模型参数也成为了另一个研究热点,并有相应的论文在今年发表(ALBERT、ELECTRA)。这一类工作为NLP研发者趟通并指明了一条光明大道:就是通过自监督学习,把大量非监督的文本充分利用起来,并将其中的语言知识编码,对各种下游NLP任务产生巨大的积极作用。 为何预训练语言模型能够达到如此好的效果?主要有如下几点: word2vec等词向量模型训练出来的都是静态的词向量,即同一个词,在任何的上下文当中,其向量表征是相同的,显然,这样的一种词向量是无法体现一个词在不同语境中的不同含义的。 我们采用预训练模型来代替词向量的关键在于,其能够更具上下文的不同,对上下文中的词提取符合其语境的词表征,该词表征向量为一个动态向量,即不同上下文输入预训练模型后

预训练语言模型整理(ELMo/GPT/BERT...)

陌路散爱 提交于 2019-12-05 22:28:55
目录 简介 预训练任务简介 自回归语言模型 自编码语言模型 预训练模型的简介与对比 ELMo 细节 ELMo的下游使用 GPT/GPT2 GPT 细节 微调 GPT2 优缺点 BERT BERT的预训练 输入表征 Fine-tunninng 缺点 ELMo/GPT/BERT对比,其优缺点 BERT-wwm RoBERTa ERNIE(艾尼) 1.0 ERNIE 2.0 XLNet 提出背景 排列语言模型(Permutation Language Model,PLM) Two-Stream Self-Attention Transformer-XL ALBERT 简介 2018年ELMo/GPT/BERT的相继提出,不断刷新了各大NLP任务排行榜,自此,NLP终于找到了一种方法,可以像计算机视觉那样进行迁移学习,被誉为NLP新时代的开端。 与计算机视觉领域预训练模型不同的是,其通过采用自监督学习的方法,将大量的无监督文本送入到模型中进行学习,即可得到通用的预训练模型,而NLP领域中无监督文本数据要多少有多少,2019年发布的后续研究工作(GPT2、Roberta、T5等)表明,采用更大的数据、更强大的炼丹炉可以不断提高模型性能表现,至少目前看来还没有达到上限。同时,如何缩减模型参数也成为了另一个研究热点,并有相应的论文在今年发表(ALBERT、ELECTRA)

用隐马尔可夫模型做基因预测

末鹿安然 提交于 2019-12-04 04:24:22
什么是隐马尔可夫模型 隐马尔可夫模型(Hidden Markov Model,HMM) 是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别,特别是我们今天要讲的基因预测。是在被建模的系统被认为是一个马尔可夫过程【一段组装好的序列】与未观测到的(隐藏的)的状态【哪些是编码区哪些不是】的统计马尔可夫模型。 下面用一个简单的例子来阐述: 假设我手里有两个颜色不同的骰子,一个是橘色(Coding,C)的另一个是蓝色(Noncoding,N)的。但是和平常的骰子不同的是,他们稳定下来只要有四种可能,也就是上下是固定的(你可以理解为他们只会平行旋转)。这样每个骰子出现ATCG的概率都是1/4. 两条链,在一起 假设我们开始投骰子,我们先从两种颜色选一个,挑到每种骰子的概率都是1/2。然后我们掷骰子,我们得到ATCG中的一个。不停地重复以上过程,我们将会得到一串序列,每个字符都是ATCG中的一个。例如CGAAAAAATCG 这串序列就叫做可见状态链。但是在隐马尔可夫模型中,我们不仅仅有这么一串可见状态链,还有一串隐含状态链。在这个例子里,这串隐含状态链就是你用的骰子的序列。比如,隐含状态链有可能是:C C N N N N N N N C C C。 一般来说

H.265/HEVC帧内预测编码

匿名 (未验证) 提交于 2019-12-02 23:34:01
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Dillon2015/article/details/90522343 前面说过,不论是图像还是视频在空域上都存在很强的相关性,也就是说对于某个像素它的像素值和其邻近的像素的像素值会很接近,利用这点来进行预测编码可以去除空域相关性压缩图像或视频体积。 帧内预测流程大致如下: 1、参考像素准备 由于空域相关性,我们总是选择离当前PU最近的已编码像素作为当前PU内像素的参考像素,在HEVC中就是选择当前PU上面的一行和左边的一列。准确说,对于NxN的PU选择正上方N个像素,右上方N个像素,左侧N个像素,左下方N个像素,左上角1个像素,共4N+1个像素作为参考像素。 但是在某些情况下,如在图像边界,Tile或Slice边界时某些参考像素不可用,某些情况下A、E区域尚未编码其像素也不可用。此时就需要寻找像素来填充。 若A区域像素不存在则用B区域最下方的像素填充,若E区域不存在则用D区域最右侧的像素填充,如上图所示。 如果所有区域的像素都不存在,则所有参考像素都用R=1<<(BitDepth-1)来填充,对于8bit像素用128填充,10bit像素用512填充。 2、帧内预测 HEVC为帧内预测提供了35种模式,分别为DC模式,Planar模式和33种角度模式。帧内模式编号和对应名称如下:

Transformer, Transformer-XL, XLNet: 追溯XLNet的前世今生

ε祈祈猫儿з 提交于 2019-12-02 21:50:38
目录 前言 一、Attention Is All You Need Attention机制 Transformer 成绩 二、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context Vanilla Transformer 循环机制 相对位置编码 Transformer-XL 成绩 RECL 三、XLNet: Generalized Autoregressive Pretraining for Language Understanding BERT 有序因子排列 双流自注意力 XLNet 成绩 预训练参数 前言 正当 GPT-2 还拿着 15 亿参数的模型吊着人们的胃口时,XLNet 带着开源的代码和 20 项 SOTA 的成绩悄悄发布了。从 BERT 到 XLNet,大一统预训练模型的成功,无疑昭示着行业的快速进步。现在是最好的时机。回到正题,本文虽篇幅较长,但能提供不一样的视角,帮你迅速理清模型的细节。废话不多说,笔者这就将带你快速品读,XLNet 诞生之路上最重要的三篇论文: Attention Is All You Need (12 Jun. 2017) Transformer-XL: Attentive Language Models Beyond a Fixed-Length