特征向量 | 易学教程

算法之海量数据处理

阅读更多关于算法之海量数据处理

1.散列分治或MapReduce 这种题目很多，大多都相似一通，针对数据特别多的情况下，一般可以选择MapReduce或者散列分治这两种方式其实思想很相似的只有些许不同；针对数据量不大的情况下可是直接加载进内存来的可以使用Trie树，红黑树这一套，hash表都可以使用。寻找共同的URL 给定两个a和b文件，各存放50亿个URL，每个URL占64字节，内存限制4GB，请找出a和b文件中共同的URL。一个文件的内存：5 000 000 000 * 64 = 320GB，每个文件可以分为100个小文件，每个文件大约是3.2GB。思路一：散列分治，先把a通过hash函数分成100个小文件，在对每个小文件进行词频统计可以使用hash表，Trie树，红黑树这些，再把b也进行统计，在对a和b一起进行词频统计，如果有重复就聚在一块用标识符进行标记即可。思路二：MapReduce，先对a进行MapReduce在对b进行MapReduce，然后再对a和b统计出来的结果在进行MapReduce即可。思路三：Bloomfilter过滤器，把4GB建立一个位数组，然后把a文件映射上去，在从b文件里面查重。 ps：MapReduce先把文件直接分成M个块这样就生成了M个Map任务，Map进行URL的映射变为字典，在通过HashShuffe对每个Map任务进行分区，然后在merge

脸型分类-Face shape classification using Inception v3

阅读更多关于脸型分类-Face shape classification using Inception v3

本文链接：https://blog.csdn.net/u011961856/article/details/77984667 函数解析 github 代码:https://github.com/adonistio/inception-face-shape-classifier CLASSIFY_FACE.py 1 用于运行训练好的Inception model,对输入图像进行分类. CLASSIFY_FACE_CONFUSION.py 1 与CLASSIFY_FACE.PY类似,但是讲述如结果和一个困惑度矩阵保存在文本文件中. EXTRACT_FEATURES.py 1 这个脚本用于检测图像中的人脸,即bounding box,检测特征点,并提取人脸特征用于训练. PROCESS_IMAGE.py 1 包含几个图像预处理和增强函数,例如图像平方,滤波,模糊,旋转,翻转等. RETRAIN_CMDGEN.py 1 得到CMD窗口命令,以重新训练Inception V3 model. RETRAIN_v2.py 1 将测试图片设置为包含所有的图像,解决了验证时的double counting 等问题. TRAIN_CLASSIFIERS.py 1 用于训练LDA, SVM-LIN, SVM-RBF, MLP, KNN分类模型. bottlenecks.rar 1

【转载】【收藏】机器学习与深度学习核心知识点总结

阅读更多关于【转载】【收藏】机器学习与深度学习核心知识点总结

原文地址： https://cloud.tencent.com/developer/article/1526902 数学 1.列举常用的最优化方法梯度下降法牛顿法拟牛顿法坐标下降法梯度下降法的改进型如AdaDelta，AdaGrad，Adam，NAG等。 2.梯度下降法的关键点梯度下降法沿着梯度的反方向进行搜索，利用了函数的一阶导数信息。梯度下降法的迭代公式为：根据函数的一阶泰勒展开，在负梯度方向，函数值是下降的。只要学习率设置的足够小，并且没有到达梯度为0的点处，每次迭代时函数值一定会下降。需要设置学习率为一个非常小的正数的原因是要保证迭代之后的x k +1位于迭代之前的值x k 的邻域内，从而可以忽略泰勒展开中的高次项，保证迭代时函数值下降。梯度下降法只能保证找到梯度为0的点，不能保证找到极小值点。迭代终止的判定依据是梯度值充分接近于0，或者达到最大指定迭代次数。梯度下降法在机器学习中应用广泛，尤其是在深度学习中。AdaDelta，AdaGrad，Adam，NAG等改进的梯度下降法都是用梯度构造更新项，区别在于更新项的构造方式不同。对梯度下降法更全面的介绍可以阅读SIGAI之前的文章“ 理解梯度下降法 ”。 3.牛顿法的关键点牛顿法利用了函数的一阶和二阶导数信息，直接寻找梯度为0的点。牛顿法的迭代公式为：其中H为Hessian矩阵，g为梯度向量

[转] 矩阵分解介绍

阅读更多关于 [转] 矩阵分解介绍

from: https://www.cnblogs.com/marsggbo/p/10152644.html#autoid-4-0-0 https://www.cnblogs.com/marsggbo/p/10156077.html 1 | 0 I. 行列式(Determinants)和迹(Trace) 1 | 1 1. 行列式(Determinants) 为避免和绝对值符号混淆，本文一般使用 𝑑 𝑒 𝑡 ( 𝐴 ) det(A)来表示矩阵 𝐴 A的行列式。另外这里的 𝐴 ∈ 𝑅 𝑛 × 𝑛 A∈Rn×n默认是方阵，因为只有方阵才能计算行列式。行列式如何计算的就不在这里赘述了，下面简要给出行列式的各种性质和定理。定理1 ：当且仅当一个方阵的行列式不为0，则该方阵可逆。定理2 ：方阵 𝐴 A的行列式可沿着某一行或某一列的元素展开，形式如下: 沿着第 𝑖 i行展开: 𝑑 𝑒 𝑡 ( 𝐴 ) = ∑ 𝑘 = 1 𝑛 ( − 1 ) 𝑘 + 𝑖 𝑎 𝑖 𝑘 𝑑 𝑒 𝑡 ( 𝐴 𝑖 , 𝑘 ) det(A)=∑k=1n(−1)k+iaikdet(Ai,k) 沿着第 𝑖 i列展开: 𝑑 𝑒 𝑡 ( 𝐴 ) = ∑ 𝑘 = 1 𝑛 ( − 1 ) 𝑘 + 𝑖 𝑎 𝑘 𝑖 𝑑 𝑒 𝑡 ( 𝐴 𝑘 , 𝑖 ) det(A)=∑k=1n(−1)k+iakidet(Ak,i) 定理3

线性代数 | (10) 相似对角形

阅读更多关于线性代数 | (10) 相似对角形

目录 1. 矩阵的相似 2. 特征值与特征向量的求法 3. 特征值与特征向量的性质 4. 一般矩阵的相似对角形 5. 实对称矩阵特征值与特征向量的性质 6. 实对称矩阵的相似对角化 1. 矩阵的相似矩阵的相似 (iv)的证明：矩阵的特征值和特征向量 2. 特征值与特征向量的求法由此可见矩阵的k重特征值不一定有k个线性无关的特征向量。 3. 特征值与特征向量的性质用数学归纳法证明：上节课的例题：推论例题特征值求法公式特征值与矩阵的关系矩阵A的特征值之和=trace(A) 即矩阵A的迹。练习 4. 一般矩阵的相似对角形矩阵与对角阵相似的条件推论：若n阶矩阵A有n个互异的特征值，则A与对角阵相似，反之不对。 n阶矩阵能够与对角阵相似，取决于矩阵能否有n个线性无关的特征向量。若n阶矩阵A有n个互异的特征值，则A与对角阵相似；若矩阵A有重特征值，不能马上断言，这时要看特征向量，实际上，只要k重特征值对应k个线性无关的特征向量即可。练习矩阵相似对角化的方法矩阵相似对角化的步骤练习 5. 实对称矩阵特征值与特征向量的性质性质1 实对称矩阵的特征值都是实数。证明一个数是实数，就是证明该数的共轭与该数相等。性质2 实对阵矩阵的相异特征值所对应的特征向量必定正交。对于一般矩阵，只能保证相异特征值所对应的特征向量线性无关。性质3

Bounding Box回归

阅读更多关于 Bounding Box回归

简介 Bounding Box非常重要，在rcnn， fast rcnn, faster rcnn, yolo, r-fcn, ssd，到今年cvpr最新的yolo9000都会用到。先看图对于上图，绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准(IoU<0.5)，那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调，使得经过微调后的窗口跟Ground Truth 更接近，这样岂不是定位会更准确。确实，Bounding-box regression 就是用来微调（注意这个字眼--微调）这个窗口的。 1、边框回归是什么？对于窗口一般使用四维向量（x, y, w, h）来表示，分别表示窗口的中心点坐标和宽高（注意这里是中心点，其实都一样）。对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth，我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G。边框回归的目的既是：给定（Px, Py, Pw, Ph）寻找一种映射f，使得f(Px,Py,Pw,Ph) = (Gx,Gy,Gw,Gh)并且（Gx,Gy,Gw,Gh）约等于f。

使用协方差矩阵的特征向量PCA来处理数据降维

阅读更多关于使用协方差矩阵的特征向量PCA来处理数据降维

取2维特征，方便图形展示 import matplotlib.pyplot as plt from sklearn.decomposition import PCA from sklearn.datasets import load_iris data = load_iris() y = data.target X = data.data pca = PCA(n_components=2) reduced_X = pca.fit_transform(X) red_x, red_y = [], [] blue_x, blue_y = [], [] green_x, green_y = [], [] for i in range(len(reduced_X)): if y[i] == 0: red_x.append(reduced_X[i][0]) red_y.append(reduced_X[i][1]) elif y[i] == 1: blue_x.append(reduced_X[i][0]) blue_y.append(reduced_X[i][1]) else: green_x.append(reduced_X[i][0]) green_y.append(reduced_X[i][1]) plt.scatter(red_x, red_y, c='r', marker='x')

吴恩达-深度学习课程笔记1-2.1 二分类Binary Classification

阅读更多关于吴恩达-深度学习课程笔记1-2.1 二分类Binary Classification

　　　　　　　　图1　　　　　　　　　　　　　　　　　　　　图2 　　一张64*64像素的图片如图1，在计算机中保存形式如图2所示。三个64*64的矩阵，分别对应图片中红、黄、蓝三种像素的强度值。我们把这些像素值提取出来放到一个特征向量x，而x的总维度n x 将是64*64*3=12288。二分类问题中，我们的目标就是以图片的特征向量作为输入，然后预测输出结果y是1还是0，即图片中有猫还是没猫。 n x ：输入特征向量的维度，有时直接用n表示； m：表示训练样本数，有时用M tarin :表示训练集样本数，M test 表示测试集样本数； x：表示一个n x 维数据，为输入数据，维度（nx, 1）； y：表示输出结果，取值（0, 1）； (x (i), y (i) )：表示第i组训练数据； X = [x (1) , x (2) , ... ,x (m) ]：来源： https://www.cnblogs.com/Mike2019/p/11713979.html

SIGAI深度学习第五讲自动编码器

阅读更多关于 SIGAI深度学习第五讲自动编码器

深度学习模型-自动编码器（AE），就是一个神经网络的映射函数，f(x)——>y，把输入的一个原始信号，如图像、声音转换为特征。大纲：自动编码器的基本思想网络结构损失函数与训练算法实际使用去燥自动编码器稀疏编码收缩自动编码器多层编码器本集总结自动编码器的基本思想：人工神经网络实现的是一个向量X映射为另一个向量Y（R n ——>R m ，m<<n），通过多层复合函数来实现，Y一般设置为样本标签向量label。AE把Y设置为从原始数据X提取出的特征向量，如X是一个高维的图像或声音。而Y是自动训练出来的，不需要人工指定，因此需考虑怎么设置训练目标函数。直接用一个单层或者多层神经网络对输入数据进行映射，得到输出向量，作为从输入数据提取出的特征。核心问题：怎么设置训练目标？解决思想：编码器+解码器框架。网络结构：编码器-将输入数据映射为特征向量，解码器-将特征向量映射回输入向量重构。类似于PCA，不过PCA直接计算目标函数L，不用训练。损失函数与训练算法：损失函数定义为重构误差，类似PCA的做法。损失函数：，h是编码器的映射函数，g是解码器的映射函数。x i 编码之后再解码和原始数据x i尽可能的接近。xunlianhao 训练算法和普通的神经网络相同，用BP算法训练，梯度下降法SGD、GD 来源： https://www.cnblogs.com

为什么要找特征向量？

阅读更多关于为什么要找特征向量？

1. 前情提要：向量是空间中的点矩阵就是空间的映射，比如 y = Ax （x,y均未向量），是将 x 向量在 A 矩阵的作用下映射成 y 向量左乘矩阵 A 可理解成改变了默认基地基底改变--> 理解空间扭曲（动图出处：公众号--meetmath） 2. 正文来源： https://www.cnblogs.com/KongHuZi/p/11676531.html

订阅特征向量