特征向量 | 易学教程

86岁还在录网课：MIT教授Gilbert Strang最新线性代数课程上线

阅读更多关于 86岁还在录网课：MIT教授Gilbert Strang最新线性代数课程上线

　　机器之心报道　　参与：张倩、Jamin、Raccon X 　　讲 MIT 线性代数经典课程的 Gilbert Strang 教授已经 86 岁高龄了。他的书被清华选作教材，课程吸引了国内外大批学子。如今疫情爆发，他又一个人对着摄像机录了一套新的课程，视频、PPT、文字稿都已上传。　　无论你是在学校、油管、B 站还是其他地方学《线性代数》，相信你对 MIT 的 Gilbert Strang 老爷子都不会陌生。　　去年，清华将「线性代数」课本改成英文教材引发热议，用的就是 Gilbert Strang 写的《Introduction to Linear Algebra》。　　　　在 B 站上，Strang 老爷子的「线性代数 MIT 18.06」课程也达到了 60 多万的播放量（只是其中一个资源的统计数据），可以说是 B 站最火的英文《线性代数》课程。同时，这门课程也是 MIT 最受欢迎的课程之一。根据 OCW 官网统计的数据，这门课程自 2002 年第一次发布以来，总访问量已经超过 1000 万。　　　　为什么他的教材、课程那么受欢迎？从各大平台的讨论中，我们可以总结出以下关键词：　　 1、实用、难度适中。知乎上有个帖子专门讨论 Gilbert Strang 的线性代数教材《Introduction to Linear Algebra》。有人表示，

86岁还在录网课：MIT教授Gilbert Strang最新「线性代数」课程上线

阅读更多关于 86岁还在录网课：MIT教授Gilbert Strang最新「线性代数」课程上线

讲 MIT 线性代数经典课程的 Gilbert Strang 教授已经 86 岁高龄了。他的书被清华选作教材，课程吸引了国内外大批学子。如今疫情爆发，他又一个人对着摄像机录了一套新的课程，视频、PPT、文字稿都已上传。机器之心报道，参与：张倩、Jamin、Raccon X。无论你是在学校、油管、B 站还是其他地方学《线性代数》，相信你对 MIT 的 Gilbert Strang 老爷子都不会陌生。去年，清华将「线性代数」课本改成英文教材引发热议，用的就是 Gilbert Strang 写的《Introduction to Linear Algebra》。在 B 站上，Strang 老爷子的「线性代数 MIT 18.06」课程也达到了 60 多万的播放量（只是其中一个资源的统计数据），可以说是 B 站最火的英文《线性代数》课程。同时，这门课程也是 MIT 最受欢迎的课程之一。根据 OCW 官网统计的数据，这门课程自 2002 年第一次发布以来，总访问量已经超过 1000 万。为什么他的教材、课程那么受欢迎？从各大平台的讨论中，我们可以总结出以下关键词： 1、实用、难度适中。知乎上有个帖子专门讨论 Gilbert Strang 的线性代数教材《Introduction to Linear Algebra》。有人表示，「Strang 的教材更加面向实际应用，难度适中

强化学习（八）价值函数的近似表示与Deep Q-Learning

阅读更多关于强化学习（八）价值函数的近似表示与Deep Q-Learning

　　　　在强化学习系列的前七篇里，我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。　　　　Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。 1. 为何需要价值函数的近似表示　　　　在之前讲到了强化学习求解方法，无论是动态规划DP，蒙特卡罗方法MC，还是时序差分TD，使用的状态都是离散的有限个状态集合$\mathbb{S}$。此时问题的规模比较小，比较容易求解。但是假如我们遇到复杂的状态集合呢？甚至很多时候，状态是连续的，那么就算离散化后，集合也很大，此时我们的传统方法，比如Q-Learning，根本无法在内存中维护这么大的一张Q表。　　　　　　　　比如经典的冰球世界(PuckWorld) 强化学习问题，具体的动态demo见这里。环境由一个正方形区域构成代表着冰球场地，场地内大的圆代表着运动员个体，小圆代表着目标冰球。在这个正方形环境中，小圆会每隔一定的时间随机改变在场地的位置，而代表个体的大圆的任务就是尽可能快的接近冰球目标。大圆可以操作的行为是在水平和竖直共四个方向上施加一个时间步时长的一个大小固定的力，借此来改变大圆的速度。环境会在每一个时间步内告诉个体当前的水平与垂直坐标

数据集成、变换、归约及相关MATLAB工具箱函数

阅读更多关于数据集成、变换、归约及相关MATLAB工具箱函数

　　数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约，在数据挖掘的过程中，数据预处理工作量占到了整个过程的 60% 。数据清洗在上一篇博客中写过，这里主要写后面三部分。数据集成　　数据挖掘需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程。　　在数据集成时，来自多个数据源的现实世界实体的表达形式是不一样的，有可能不匹配，要考虑实体识别问题和属性冗余问题，从而将源数据在最低层上加以转换、提炼和集成。　　1、实体识别　　同名异义、异名同义、单位不统一　　2、冗余项识别　　数据集成往往导致数据冗余，如：　　①同一属性多次出现。　　②同一属性命名不一致导致重复。　　有些冗余属性可以用相关分析检测。给定两个数值型的属性A和B，根据其属性值，用相关系数度量一个属性在多大程度上蕴含另一个属性。数据变换　　数据变换主要是对数据进行规范化处理，将数据转换成适当的形式，以适用于挖掘任务及算法的需要。简单的函数变换　　常见的函数变换有平方、开方、取对数、差分等。 $$\begin{array}{*{20}{l}} {{x^\prime } = {x^2}}\\ {{x^\prime } = \sqrt x }\\ {{x^\prime } = \log (x)}\\ {\nabla f

特征工程系列之降维：用PCA压缩数据

阅读更多关于特征工程系列之降维：用PCA压缩数据

引言降维是关于摆脱“无信息的信息”的同时保留关键点。有很多方法可以定义“无信息”。PCA 侧重于线性依赖的概念。我们将数据矩阵的列空间描述为所有特征向量的跨度。如果列空间与特征的总数相比较小，则大多数特征是几个关键特征的线性组合。如果在下一步管道是一个线性模型，然后线性相关的特征会浪费空间和计算能力。为了避免这种情况，主成分分析尝试去通过将数据压缩成更低维的线性来减少这种“绒毛”子空间。在特征空间中绘制一组数据点。每个数据点都是一个点，整个数据点集合形成一个 blob。在图 6-1(a)中，数据点在两个特征维度上均匀分布，blob 填充空间。在这个示例中，列空间具有完整的等级。但是，如果其中一些特征是其他特征的线性组合，那么该 blob 看起来不会那么丰满; 它看起来更像图 6-1(b)，这是一个平面斑点，其中特征 1 是特征 2 的重复（或标量倍数）。在这种情况下，我们说该 blob 的本征维数是 1，即使它位于二维空间之中。在实践中，事情很少完全相同。这更可能是我们看到非常接近平等但不完全相同的特征。在这种情况下，数据 blob 可能如图 6-1(c)所示。这是一个憔悴的一团。要是我们想要减少传递给模型的特征的数量，那么我们可以用一个新特征替换特征 1 和特征 2，可能称之为位于两个特征之间的对线的 1.5 特征。原始数据集可以是用一个数字充分表示——沿着特征方 1.5

13机器学习实战之PCA（2）

阅读更多关于 13机器学习实战之PCA（2）

PCA——主成分分析简介 PCA全称Principal Component Analysis，即主成分分析，是一种常用的数据降维方法。它可以通过线性变换将原始数据变换为一组各维度线性无关的表示，以此来提取数据的主要线性分量。 z = w T x 其中，z为低维矩阵，x为高维矩阵，w为两者之间的映射关系。假如我们有二维数据（原始数据有两个特征轴——特征1和特征2）如下图所示，样本点分布为斜45°的蓝色椭圆区域。 PCA算法认为斜45°为主要线性分量，与之正交的虚线是次要线性分量（应当舍去以达到降维的目的）。划重点：线性变换=>新特征轴可由原始特征轴线性变换表征线性无关=>构建的特征轴是正交的主要线性分量（或者说是主成分）=>方差加大的方向 PCA算法的求解就是找到主要线性分量及其表征方式的过程相应的，PCA解释方差并对离群点很敏感：少量原远离中心的点对方差有很大的影响，从而也对特征向量有很大的影响。线性变换一个矩阵与一个列向量A相乘，等到一个新的列向量B，则称该矩阵为列向量A到列向量B的线性变换。我们希望投影后投影值尽可能分散，而这种分散程度，可以用数学上的方差来表述。即寻找一个一维基，使得所有数据变换为这个基上的坐标表示后，方差值最大。解释：方差越大，说明数据越分散。通常认为，数据的某个特征维度上数据越分散，该特征越重要。对于更高维度

文本特征提取---词袋模型，TF-IDF模型，N-gram模型（Text Feature Extraction Bag of Words TF-IDF N-gram ）

阅读更多关于文本特征提取---词袋模型，TF-IDF模型，N-gram模型（Text Feature Extraction Bag of Words TF-IDF N-gram ）

假设有一段文本："I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends." 那么怎么提取这段文本的特征呢？一个简单的方法就是使用词袋模型（ bag of words model ）。选定文本内一定的词放入词袋，统计词袋内所有词在文本中出现的次数（忽略语法和单词出现的顺序），将其用向量的形式表示出来。词频统计可以用scikit-learn的 CountVectorizer 实现： text1= " I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends. " from sklearn.feature_extraction.text import CountVectorizer CV = CountVectorizer() words =CV.fit_transform([text1]) # 这里注意要把文本字符串变为列表进行输入 print (words) 首先CountVectorizer将文本映射成字典，字典的键是文本内的词，值是词的索引，然后对字典进行学习，将其转换成词频矩阵并输出： (0, 3) 1 (0, 4) 1

文本数据预处理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer

阅读更多关于文本数据预处理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer

文本数据预处理的第一步通常是进行分词，分词后会进行向量化的操作。在介绍向量化之前，我们先来了解下词袋模型。 1.词袋模型（Bag of words，简称 BoW ）词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。词袋模型首先会进行分词，在分词之后，通过统计每个词在文本中出现的次数，我们就可以得到该文本基于词的特征，如果将各个文本样本的这些词与对应的词频放在一起，就是我们常说的向量化。向量化完毕后一般也会使用 TF-IDF 进行特征的权重修正，再将特征进行标准化。再进行一些其他的特征工程后，就可以将数据带入机器学习模型中计算。词袋模型的三部曲：分词（tokenizing），统计修订词特征值（counting）与标准化（normalizing）。词袋模型有很大的局限性，因为它仅仅考虑了词频，没有考虑上下文的关系，因此会丢失一部分文本的语义。在词袋模型统计词频的时候，可以使用 sklearn 中的 CountVectorizer 来完成。下面具体说明。 2.词频向量化 CountVectorizer 类会将文本中的词语转换为词频矩阵，例如矩阵中包含一个元素a[i][j]，它表示j词在i类文本下的词频。它通过 fit_transform 函数计算各个词语出现的次数，通过get_feature_names(

2 python 文本特征提取 CountVectorizer, TfidfVectorizer

阅读更多关于 2 python 文本特征提取 CountVectorizer, TfidfVectorizer

1. TF-IDF概述 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜索引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。（1）TF TF: Term Frequency, 用于衡量一个词在一个文件中的出现频率。因为每个文档的长度的差别可以很大，因而一个词在某个文档中出现的次数可能远远大于另一个文档，所以词频通常就是一个词出现的次数除以文档的总长度，相当于是做了一次归一化。 TF(t) = (词t在文档中出现的总次数) / (文档的词总数). （2）IDF IDF: 逆向文件频率，用于衡量一个词的重要性。计算词频TF的时候，所有的词语都被当做一样重要的，但是某些词，比如”is”, “of”, “that”很可能出现很多很多次，但是可能根本并不重要，因此我们需要减轻在多个文档中都频繁出现的词的权重。 ID(t) = log(总文档数/词t出现的文档数) TF

tf idf公式及sklearn中TfidfVectorizer

阅读更多关于 tf idf公式及sklearn中TfidfVectorizer

　　　　在文本挖掘预处理之向量化与Hash Trick 中我们讲到在文本挖掘的预处理中，向量化之后一般都伴随着TF-IDF的处理，那么什么是TF-IDF，为什么一般我们要加这一步预处理呢？这里就对TF-IDF的原理做一个总结。 1. 文本向量化特征的不足　　　　在将文本分词并向量化后，我们可以得到词汇表中每个词在各个文本中形成的词向量，比如在文本挖掘预处理之向量化与Hash Trick 这篇文章中，我们将下面4个短文本做了词频统计： corpus=[ " I come to China to travel " , " This is a car polupar in China " , " I love tea and Apple " , " The work is to write some papers in science " ] 　　　　不考虑停用词，处理后得到的词向量如下： [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0] [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0] [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0] [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]] 　　　　如果我们直接将统计词频后的19维特征做为文本分类的输入

订阅特征向量