特征函数 | 易学教程

【Graph Embedding】GCN：天空飘来七个大字

阅读更多关于【Graph Embedding】GCN：天空飘来七个大字

今天学习的是阿姆斯特丹大学的同学于 2016 发表的一篇论文《Semi-supervised Classification with Graph Convolutional Networks》，目前有 2800 多引用。在 2013 年在之前，NetWork Representation 有两种主流的方式，包括矩阵分解和 NetWork Embedding。在 2013 年之后，也就是 Mikolov 提出 Word2Vec 之后，人们将注意力转移到 Network Embedding 上，并在此之后出现了很多有名的算法——DeepWalk、LINE、Node2Vec 等等。但是所有的这些方法都需要分成两步分别优化，一个是基于随机游走的生成序列和另一个是半监督学习的训练。 2013 年，本文作者提出了基于空间的图卷积神经网络，通过在图上进行卷积来完成特征提取，并取得非常好的效果。 1. Introduction 我们知道对于 CNN 网络中来说，其核心在使用了基于 Kernel 的卷积操作来提取图像的特征，卷积操作类似于对计算区域内的中心节点和相邻节点进行加权求和： CNN 之所以能成为图像领域的明珠却很少应用于其他领域原因是：图片是一个规整的二维矩阵，无论 Kernel 平移到图片中的哪个位置都可以保证其运算结果的一致性，即：平移不变性。CNN

深度学习概述：从感知机到深度网络

阅读更多关于深度学习概述：从感知机到深度网络

　　（注：本文译自一篇博客，作者行文较随意，我尽量按原意翻译，但作者所介绍的知识还是非常好的，包括例子的选择、理论的介绍都很到位，由浅入深，源文地址）　　近些年来，人工智能领域又活跃起来，除了传统了学术圈外，Google、Microsoft、facebook等工业界优秀企业也纷纷成立相关研究团队，并取得了很多令人瞩目的成果。这要归功于社交网络用户产生的大量数据，这些数据大都是原始数据，需要被进一步分析处理；还要归功于廉价而又强大的计算资源的出现，比如GPGPU的快速发展。　　除去这些因素，AI尤其是机器学习领域出现的一股新潮流很大程度上推动了这次复兴——深度学习。本文中我将介绍深度学习背后的关键概念及算法，从最简单的元素开始并以此为基础进行下一步构建。　　（本文作者也是Java deep learning library的作者，可以从此处获得，本文中的例子就是使用这个库实现的。如果你喜欢，可以在Github上给个星~。用法介绍也可以从此处获得）机器学习基础　　如果你不太熟悉相关知识，通常的机器学习过程如下：　　　　1、机器学习算法需要输入少量标记好的样本，比如10张小狗的照片，其中1张标记为1（意为狗）其它的标记为0（意为不是狗）——本文主要使用监督式、二叉分类。　　　　2、这些算法“学习”怎么样正确将狗的图片分类，然后再输入一个新的图片时

夜空中最亮的星

阅读更多关于夜空中最亮的星

目录夜空中最亮的星 1- Dirichlet 积分 3-特征函数 4-特征函数性质 5-中心极限定理夜空中最亮的星 1- Dirichlet 积分设 $I(a)=\frac1\pi\int_0^{+\infty}\frac{\sin{at}}{t}dt$ ，则有： \[ I(a)= \begin{cases} \frac12&\text{a>0}\\ 0&a=0\\ -\frac12&a<0 \end{cases} \] 为了证明 $Dirichlet\ 积分$ ，我们先证明 $\int_0^{+\infty}\frac{\sin{x}}{x}dx=\frac\pi2$ \[ \begin{align} 设\ \frac1x=&\int_0^{+\infty}e^{-xs}ds\\ \int_0^T\frac{\sin{x}}{x}dx=&\int_0^{T}（\sin{x}{\int_0^{+\infty}e^{-xs}ds）}dx\\ =&\int_0^{+\infty}（{\int_0^{T}\sin{x}\ e^{-xs}dx）}ds\\ =&\int_0^{+\infty}[\frac{1}{1+s^2}-\frac{s\cdot\sin T+T\cdot\cos{T}}{s^2+T^2}e^{-s}]ds\\ =&\frac\pi2-\int_0^{+

矩阵特征值

阅读更多关于矩阵特征值

参考：https://www.zhihu.com/question/21874816 如何理解矩阵特征值？想要理解特征值，首先要理解矩阵相似。什么是矩阵相似呢？从定义角度就是：存在可逆矩阵P满足B＝则我们说A和B是相似的。让我们来回顾一下之前得出的重要结论：对于同一个线性空间，可以用两组不同的基和基来描述，他们之间的过渡关系是这样的：，而对应坐标之间的过渡关系是这样的：。其中P是可逆矩阵，可逆的意义是我们能变换过去也要能变换回来，这一点很重要。我们知道，对于一个线性变换，只要你选定一组基，那么就可以用一个矩阵T1来描述这个线性变换。换一组基，就得到另一个不同的矩阵T2（之所以会不同，是因为选定了不同的基，也就是选定了不同的坐标系）。所有这些矩阵都是这同一个线性变换的描述，但又都不是线性变换本身。具体来说，有一个线性变换，我们选择基来描述，对应矩阵是；同样的道理，我们选择基来描述，，对应矩阵是；我们知道基和基是有联系的，那么他们之间的变换和有没有联系呢？当然有，和就是相似的关系，具体的请看下图： &lt;img src="https://pic1.zhimg.com/6cf43eca0f26cb1752f8fbf2633b699c_b.jpg" data-rawwidth="721" data-rawheight="449" class

机器学习之支持向量机

阅读更多关于机器学习之支持向量机

SVM与神经网络支持向量机并不是神经网络，这两个完全是两条不一样的路吧。不过详细来说，线性SVM的计算部分就像一个单层的神经网络一样，而非线性SVM就完全和神经网络不一样了（是的没错，现实生活中大多问题是非线性的），详情可以参考知乎答案。这两个冤家一直不争上下，最近基于神经网络的深度学习因为AlphaGo等热门时事，促使神经网络的热度达到了空前最高。毕竟，深度学习那样的多层隐含层的结构，犹如一个黑盒子，一个学习能力极强的潘多拉盒子。有人或许就觉得这就是我们真正的神经网络，我们不知道它那数以百千计的神经元干了什么，也不理解为何如此的结构能诞生如此美好的数据 —— 犹如复杂性科学般，处于高层的我们并不能知道底层的”愚群“为何能涌现。两者一比起来，SVM似乎也没有深度学习等那么令人狂热，连Hinton都开玩笑说SVM不过是浅度学习（来自深度学习的调侃）。不然，个人觉得相对于热衷于隐含层的神经网络，具有深厚的数学理论的SVM更值得让我们研究。SVM背后伟大的数学理论基础可以说是现今人类的伟大数学成就，因此SVM的解释性也非神经网络可比，可以说，它的数学理论让它充满了理性，这样的理性是一个理工科生向往的。就如，你渴望知道食物的来源以确定食物是否有毒，如果有毒是什么毒，这样的毒会在人体内发生了什么反应以致于让你不适 —— 我的理性驱使我这么想，一个来路不明的食物是不能让我轻易接受的。

机器学习之线性回归

阅读更多关于机器学习之线性回归

1.什么是线性回归线性回归，首先要介绍一下机器学习中的两个常见的问题：回归任务和分类任务。那什么是回归任务和分类任务呢？简单的来说，在监督学习中（也就是有标签的数据中），标签值为连续值时是回归任务，标志值是离散值时是分类任务。线性回归模型就是处理回归任务的最基础的模型。线性回归模型试图学得一个线性模型以尽可能准确地预测实值X的输出标记Y。在这个模型中，因变量Y是连续的，自变量X可以是连续或离散的。首先来了解一些字母的含义：m-训练集样本的数量；x-输入变量/特征；y-输出变量/要预测的目标变量；（x,y)-表示一个训练样本；（ x ( i ) x^{(i)} x ( i ) , y ( i ) y^{(i)} y ( i ) )中i上标：表示第i个训练样本，即表示表格中的第i行； x 1 x_{1} x 1 、 x 2 x_{2} x 2 、… x n x_{n} x n 表示特征向量，n表示特征向量的个数； h θ h_{\theta} h θ (x)称为假设函数，h是一个引导从x得到y的函数；举个简单的例子：输入数据：工资（ x 1 x_{1} x 1 ）和房屋面积（ x 2 x_{2} x 2 ）（两个特征）输出目标：预测银行会贷款多少钱（标签）姓名工资房屋面积可贷款金额张三 6000 58 33433 李四 9000 77

统计学习方法李航---第5章决策树

阅读更多关于统计学习方法李航---第5章决策树

第5章决策树决策树(decision tree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。 5.1 决策树模型与学习定义5.1 (决策树) ：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型：内部结点(internal node )和叶结点(leaf node)。内部结点表示一个特征或属性，叶结点表示一个类。用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶结点。最后将实例分到叶结点的类中。图中圆和方框分别表示内部结点和叶结点. 决策树与if-then规则可以将决策树看成一个if-then规则的集合，转换成if-then规则的过程：由决策树的根结点到叶结点的每一条路径构建一条规则

统计学习方法笔记

阅读更多关于统计学习方法笔记

统计学习方法概论 1.1 统计学习统计学习（statistics learning）：计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析。也称为统计机器学习（statistics machine learning）。统计学习的特点：以计算机及网络为平台，是建立在计算机及网络之上的；以数据为研究对象，是数据驱动的学科；目的是对数据进行预测与分析；统计学习以方法为中心，统计学习方法构建模型并应用模型进行预测与分析；是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科； // 现在我们所说的机器学习，往往是指统计机器学习。统计学习的对象数据（data）。首先呢，统计学习从数据出发，提取数据的特征，抽象出数据中的模型，发现数据中的知识，最终又回到对数据的分析预测中去。其次，作为统计学习的对象，数据是多样的，它包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。关于数据的基本假设：同类数据具有一定的统计规律性。（什么叫“同类数据”：具有某种共同性质的数据，比如英文文章，互联网网页，数据库中的数据等，它们具有统计规律性，所以可以用概率统计方法来进行处理。比如，可以用随机变量描述数据中的特征

多项式回归

阅读更多关于多项式回归

在没有激励函数的情况下,输出和输入只是线性关系,甚至就算加上激励函数,那也是和整个输出的非线性关系. 当我感觉输出应该和某个特征为非线性关系时,该怎么办? 这里要用到一种叫多项式回归的办法: 其实也很简单,就是把原来的输入加一项,某个特征的幂次,质数,随便你. 假如原来的输入特征向量是: 现在我先对数据集进行一些处理,将其变为: 当然,我在吴恩达老师的课里还看到一种方法: 这两个方法的核心思想都是处理特征使模型更好. 总之不能无脑输入数据集,先有自己的一些判断和处理还是很重要的. 来源： CSDN 作者： oahuyil 链接： https://blog.csdn.net/realliyuhao/article/details/104121248

L1和L2：损失函数和正则化

阅读更多关于 L1和L2：损失函数和正则化

作为损失函数 L1范数损失函数　　 L1 范数损失函数，也被称之为最小绝对值误差。总的来说，它把目标值$Y_i$与估计值$f(x_i)$的绝对差值的总和最小化。 $$S=\sum_{i=1}^n|Y_i-f(x_i)|$$ L2范数损失函数　　 L2 范数损失函数，也被称为最小平方误差，总的来说，它把目标值$Y_i$与估计值$f(x_i)$的差值的平方和最小化。 $$S=\sum_{i=1}^n(Y_i-f(x_i))^2$$ L1损失函数 L2损失函数鲁棒不是很鲁棒不稳定性稳定解可能多个解总是一个解　　总结一下：L2范数loss将误差平均化（如果误差大于1，则误差会放大很多），模型的误差会比L1范数来得大，因此模型会对样本更加敏感，这就需要调整模型来最小化误差。如果有个样本是一个异常值，模型就需要调整以适应单个的异常值，这会牺牲许多其他正常的样本，因为这些正常的样本的误差比这单个的异常值的误差小。作为正则化　　我们经常会看见损失函数后面添加一个额外项，一般为 L1-norm , L2-norm ，中文称作 L1正则化和 L2正则化，或者 L1范数和 L2函数。　　L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。防止模型过拟合而加在损失函数后面的一项。 L1正规化　

订阅特征函数