特征向量 | 易学教程

特征值分解与奇异值分解

阅读更多关于特征值分解与奇异值分解

https://www.cnblogs.com/fuleying/p/4466326.html 特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系，我在接下来会谈到，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。 1. 特征值：如果说一个向量v是方阵A的特征向量，将一定可以表示成下面的形式：写成矩阵形式：这时候λ就被称为特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。 2. 特征分解：特征值分解是将一个矩阵分解成下面的形式：其中Q是这个矩阵A的特征向量组成的矩阵，正交矩阵是可逆的。 Σ = diag(λ 1 , λ 2 , ..., λ n )是一个对角阵，每一个对角线上的元素就是一个特征值。首先，要明确的是，一个矩阵其实就是一个线性变换，因为一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换。　　当矩阵是高维的情况下，那么这个矩阵就是高维空间下的一个线性变换，这个线性变化可能没法通过图片来表示，但是可以想象，这个变换也同样有很多的变换方向，我们通过特征值分解得到的前N个特征向量，那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向，就可以近似这个矩阵（变换）。也就是之前说的：提取这个矩阵最重要的特征。总结一下，特征值分解可以得到特征值与特征向量，

多模态机器学习，在线教育退课预测新进展！

阅读更多关于多模态机器学习，在线教育退课预测新进展！

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达在线教育场景下的学生退课行为预测，一直是机器学习（ML）与教育（EDU）交叉领域内较为火热的研究课题。近年间，针对该方向的研究对象大多集中为大规模开放性在线课程（Massive Open Online Course, MOOC）的学生，通过收集 MOOC 平台上学生近期平台登录记录与相关网页埋点反馈数据，研究人员制作相关特征向量并结合机器学习模型算法，如Simple Logistic Regression、Gradient BoostingDecision Tree、Iterative Logistic Regression 等，对存在退课高风险的学生进行预测。不同于针对MOOC平台学生的预测，当前研究领域对 K12 在线教育平台的学生退课预测还处于初期探索阶段。除此之外，在线 K12 教育平台的数据类型与 MOOC 平台数据相比存在更多模态，例如 K12 教育平台的学生在课前课后与平台顾问直接会产生沟通记录、课程进行过程中也会有相应的音视频记录等。因此，先前关于 MOOC平台的退课预测研究的方法与结论很难直接用于 K12 在线教育场景。针对这些问题与特点，在2019年初，我们使用某K12在线教育1对1平台2018年秋冬季学期的学生历史行为数据

TensorFlow学习笔记4-线性代数基础

阅读更多关于 TensorFlow学习笔记4-线性代数基础

TensorFlow学习笔记4-线性代数基础本笔记内容为“AI深度学习”。内容主要参考《Deep Learning》中文版。 $X$表示训练集的设计矩阵，其大小为m行n列，m表示训练集的大小(size)，n表示特征的个数； $W$表示权重矩阵，其大小是n行k列，n为输入特征的个数，k为输出(特征)的个数； $\boldsymbol{y}$表示训练集对应标签，其大小为m行，m表示训练集的大小(size)； $\boldsymbol{y’}$表示将测试向量$x$输入后得到的测试结果；几个概念深度学习如果想让计算机构建较简单的概念来学习复杂概念，我们可能需要一个深的(层次很多的)计算图，这种方法叫做 AI深度学习。典型例子是前馈神经网络和多层感知机(multilayer perceptron, MLP) 。神经网络的深度的度量：计算图的深度(计算层次) 概念图的深度(模型层次) 深度学习、机器学习与AI的关系如图：表示学习机器学习需要特征集，但我们很难知道应提取什么特征。如：我们想识别出图片中是否有汽车，想到用车轮是否存在作为一个特征，但如何根据像素值去描述什么是车轮呢？这就需要表示学习。表示学习可帮助发现很好的特征集。自编码器表示学习的典例是自编码器 (autoencoder)。它希望：输入数据$X$和输出数据$X’$尽可能保持一致；

2020-12-03

阅读更多关于 2020-12-03

推荐系统实战之特征工程前言本次特征工程任务我主要从理论出发，加强对推荐系统的特征工程的了解。本文主要参考了王喆大佬的《深度学习推荐系统》，将从推荐系统的视角出发，结合本次新闻推荐比赛的实际案例，探讨推荐系统的特征工程。数据决定了机器学习模型的上限，特征则是对数据的表达，特征工程就是利用工程化的方法寻找对数据更好的表达。在推荐系统中，数据分为用户信息、物品信息和场景信息。推荐系统的特征工程就是利用工程手段从“用户信息”“物品信息”“场景信息”中提取特征的过程。构建推荐系统特征工程的原则由于用户的行为数据是原始的，是具体的，要从中抽取出某种数学形式的特征，就涉及到信息的损失。另一方面，用户的行为数据中又有很多冗余的、无用的信息，这些信息都考虑进来会损害模型的泛化能力。因此，构建推荐系统特征工程的原则是：尽可能地让特征工程抽取出的一组特征能够保留推荐环境及用户行为过程中的所有有用信息，尽量摒弃冗余信息在本次新闻推荐场景中，从我的角度考虑对我重要的新闻有：对新闻的类型偏好（如科技、旅游、非娱乐）新闻的热门程度（如抗疫、时事）新闻相关程度（如嫦娥5号系列报道）新闻发出的时间（大多新闻都会在饭点看）看是由哪个订阅号发的新闻（保证权威性及类型偏好）看新闻时的状态（烦躁时会看些有趣的）将这些要素转换成特征，基于本次新闻推荐多路召回后的数据，即（用户，新闻

详解Transformer （Attention Is All You Need）

阅读更多关于详解Transformer （Attention Is All You Need）

点击上方“ 迈微电子研发社 ”，选择“ 星标★ ”公众号重磅干货，第一时间送达前言注意力（Attention）机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域，例如在计算机视觉方向用于捕捉图像上的感受野，或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升，堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。正如论文的题目所说的，Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成。更准确地讲，Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建，作者的实验是通过搭建编码器和解码器各6层，总共12层的Encoder-Decoder，并在机器翻译中取得了BLEU值得新高。作者采用Attention机制的原因是考虑到RNN（或者LSTM，GRU等）的计算限制为是顺序的，也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算，这种机制带来了两个问题：时间片的计算依赖

论文阅读

阅读更多关于论文阅读

本文为阅读论文 Wide & Deep Learning for Recommender Systems 时记下的笔记。背景推荐系统给出的结果需要兼顾相关性和新颖性。推荐的内容和用户特征很匹配，就会推荐大量相关内容，时间一久，用户感到无新鲜感。推荐内容过于泛化，用户的兴趣无法满足。本文提出的算法用于 Google Play 的 APP 推荐系统。线性模型线性模型中各类特征常采用 one-hot 向量表示，比如“国家”属性，可取的值有 200 多个，要表示“国家”就采用一个 200 多个维度的向量，每一个国家占一个维度。类似地，其他属性也这样表示。如此以来，对某个事物的向量表示，就是拼接各个属性对应的 one-hot 向量，整个向量表示是非常稀疏的。国家：[0 0 0 1 0 0 ...] 性别: [1 0] 用户安装过的 APP，可以有多个，采用 bag-of-word 表示，每个维度表示一个 APP 是否安装。 APP: [0 0 1 0 1 0 0 ...] 不同的特征之间可以进行组合，比如将国家和性别属性组合，可以表示如“中国男性”这样的组合属性。特征的组合能够给线性模型增加非线性的特征。但是也会极大地增大特征维度。线性模型的使用的特征向量具有维度高、稀疏的特点。线性模型的形式如下： $$ y = \mathbf{w}^T\mathbf{x} + b $$

Wide and deep 模型【一】

阅读更多关于 Wide and deep 模型【一】

一、论文概述 Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型，并应用到了 Google Play 的应用推荐中 [1]。 wide and deep 模型的核心思想是结合线性模型的记忆能力（memorization）和 DNN 模型的泛化能力（generalization），在训练过程中同时优化 2 个模型的参数，从而达到整体模型的预测能力最优。结合我们的产品应用场景同 Google Play 的推荐场景存在较多的类似之处，在经过调研和评估后，我们也将 wide and deep 模型应用到产品的推荐排序模型，并搭建了一套线下训练和线上预估的系统。鉴于网上对 wide and deep 模型的相关描述和讲解并不是特别多，我们将这段时间对 TensorFlow1.1 中该模型的调研和相关应用经验分享出来，希望对相关使用人士带来帮助。 wide and deep 模型的框架在原论文的图中进行了很好的概述。 wide 端对应的是线性模型，输入特征可以是连续特征，也可以是稀疏的离散特征，离散特征之间进行交叉后可以构成更高维的离散特征。线性模型训练中通过 L1 正则化，能够很快收敛到有效的特征组合中。 deep 端对应的是 DNN 模型，每个特征对应一个低维的实数向量，我们称之为特征的 embedding

机器学习的数学基础

阅读更多关于机器学习的数学基础

点击上方蓝色字关注我们~ 一、概述我们知道，机器学习的特点就是：以计算机为工具和平台，以数据为研究对象，以学习方法为中心；是概率论、线性代数、数值计算、信息论、最优化理论和计算机科学等多个领域的交叉学科。所以本文就先介绍一下机器学习涉及到的一些最常用的的数学知识。二、线性代数 2-1、标量一个标量就是一个单独的数，一般用小写的的变量名称表示。 2-2、向量一个向量就是一列数，这些数是有序排列的。用过次序中的索引，我们可以确定每个单独的数。通常会赋予向量粗体的小写名称。当我们需要明确表示向量中的元素时，我们会将元素排列成一个方括号包围的纵柱：我们可以把向量看作空间中的点，每个元素是不同的坐标轴上的坐标。 2-3、矩阵矩阵是二维数组，其中的每一个元素被两个索引而非一个所确定。我们通常会赋予矩阵粗体的大写变量名称，比如A。如果一个实数矩阵高度为m，宽度为n，那么我们说。矩阵这东西在机器学习中就不要太重要了！实际上，如果我们现在有N个用户的数据，每条数据含有M个特征，那其实它对应的就是一个N*M的矩阵呀；再比如，一张图由16*16的像素点组成，那这就是一个16*16的矩阵了。现在才发现，我们大一学的矩阵原理原来这么的有用！要是当时老师讲课的时候先普及一下，也不至于很多同学学矩阵的时候觉得莫名其妙了。 2-4、张量

哈工大硕士生实现11种数据降维算法，代码已开源！

阅读更多关于哈工大硕士生实现11种数据降维算法，代码已开源！

点击“ 开发者技术前线 ”，选择“星标🔝” 在看|星标|留言, 真爱来自：相约机器人编辑：huber 大家好，我是huber! 网上关于各种降维算法的资料参差不齐，同时大部分不提供源代码。这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取（数据降维）算法，包括：PCA、LDA、MDS、LLE、TSNE 等，并附有相关资料、展示效果；非常适合机器学习初学者和刚刚入坑数据挖掘的小伙伴。 01 为什么要进行数据降维？所谓降维，即用一组个数为 d 的向量 Zi 来代表个数为 D 的向量 Xi 所包含的有用信息，其中 d<D；通俗来讲，即将高维度下降至低维度；将高维数据下降为低维数据。通常，我们会发现大部分数据集的维度都会高达成百乃至上千，而经典的 MNIST，其维度都是 64。 MNIST 手写数字数据集但在实际应用中，我们所用到的有用信息却并不需要那么高的维度，而且每增加一维所需的样本个数呈指数级增长，这可能会直接带来极大的「维数灾难」；而数据降维就可以实现：使得数据集更易使用确保变量之间彼此独立降低算法计算运算成本去除噪音一旦我们能够正确处理这些信息，正确有效地进行降维，这将大大有助于减少计算量，进而提高机器运作效率。而数据降维，也常应用于文本处理、人脸识别、图片识别、自然语言处理等领域。 02 数据降维原理

【机器学习算法基础+实战系列】KNN算法

阅读更多关于【机器学习算法基础+实战系列】KNN算法

k 近邻法（K-nearest neighbor）是一种基本的分类方法基本思路：给定一个训练数据集，对于新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例多数属于某个类别，就把输入实例分为这个类。算法：输入：训练数据集 $T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})}$ 其中 $x_{i}$ 是训练集实例的特征向量（features vectors），$y_{i}$ 是训练集实例的类别，$i=1,2,3,\cdot\cdot\cdot,N$ (N 代表的是训练集实例的数量) 输出：训练数据集实例的列别$y$ 模型：三个基本要素：距离度量（欧几里得距离），k值的选择，分类决策规则（多数表决 ) 距离度量：首先特征向量是$n$维，$x_{i}$是训练数据集中的特征向量，$x_{j}$是输入实例的特征向量。其中$x_{i}=(x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)}), x_{j}=(x_{j}^{(1)},x_{j}^{(2)},...,x_{j}^{(n)})$. 两者之间的距离定义为：$L_{p}(x_{i},x_{j})=(\sum_{t=1}^{n}{|x_{i}^{(t)}-x_{j}^{(t)}|^{p}})^{1/p}$. 在这里$p\geq1$, 当

订阅特征向量