特征向量

算法之海量数据处理

匿名 (未验证) 提交于 2019-12-02 23:43:01
1.散列分治或MapReduce 这种题目很多,大多都相似一通,针对数据特别多的情况下,一般可以选择MapReduce或者散列分治这两种方式其实思想很相似的只有些许不同;针对数据量不大的情况下可是直接加载进内存来的可以使用Trie树,红黑树这一套,hash表都可以使用。 寻找共同的URL 给定两个a和b文件,各存放50亿个URL,每个URL占64字节,内存限制4GB,请找出a和b文件中共同的URL。 一个文件的内存:5 000 000 000 * 64 = 320GB,每个文件可以分为100个小文件,每个文件大约是3.2GB。 思路一:散列分治,先把a通过hash函数分成100个小文件,在对每个小文件进行词频统计可以使用hash表,Trie树,红黑树这些,再把b也进行统计,在对a和b一起进行词频统计,如果有重复就聚在一块用标识符进行标记即可。 思路二:MapReduce,先对a进行MapReduce在对b进行MapReduce,然后再对a和b统计出来的结果在进行MapReduce即可。 思路三:Bloomfilter过滤器,把4GB建立一个位数组,然后把a文件映射上去,在从b文件里面查重。 ps:MapReduce先把文件直接分成M个块这样就生成了M个Map任务,Map进行URL的映射变为字典,在通过HashShuffe对每个Map任务进行分区,然后在merge

脸型分类-Face shape classification using Inception v3

。_饼干妹妹 提交于 2019-12-02 22:44:44
本文链接:https://blog.csdn.net/u011961856/article/details/77984667 函数解析 github 代码:https://github.com/adonistio/inception-face-shape-classifier CLASSIFY_FACE.py 1 用于运行训练好的Inception model,对输入图像进行分类. CLASSIFY_FACE_CONFUSION.py 1 与CLASSIFY_FACE.PY类似,但是讲述如结果和一个困惑度矩阵保存在文本文件中. EXTRACT_FEATURES.py 1 这个脚本用于检测图像中的人脸,即bounding box,检测特征点,并提取人脸特征用于训练. PROCESS_IMAGE.py 1 包含几个图像预处理和增强函数,例如图像平方,滤波,模糊,旋转,翻转等. RETRAIN_CMDGEN.py 1 得到CMD窗口命令,以重新训练Inception V3 model. RETRAIN_v2.py 1 将测试图片设置为包含所有的图像,解决了验证时的double counting 等问题. TRAIN_CLASSIFIERS.py 1 用于训练LDA, SVM-LIN, SVM-RBF, MLP, KNN分类模型. bottlenecks.rar 1

【转载】【收藏】机器学习与深度学习核心知识点总结

耗尽温柔 提交于 2019-12-02 19:02:56
原文地址: https://cloud.tencent.com/developer/article/1526902 数学 1.列举常用的最优化方法 梯度下降法 牛顿法 拟牛顿法 坐标下降法 梯度下降法的改进型如AdaDelta,AdaGrad,Adam,NAG等。 2.梯度下降法的关键点 梯度下降法沿着梯度的反方向进行搜索,利用了函数的一阶导数信息。梯度下降法的迭代公式为: 根据函数的一阶泰勒展开,在负梯度方向,函数值是下降的。只要学习率设置的足够小,并且没有到达梯度为0的点处,每次迭代时函数值一定会下降。需要设置学习率为一个非常小的正数的原因是要保证迭代之后的x k +1位于迭代之前的值x k 的邻域内,从而可以忽略泰勒展开中的高次项,保证迭代时函数值下降。 梯度下降法只能保证找到梯度为0的点,不能保证找到极小值点。迭代终止的判定依据是梯度值充分接近于0,或者达到最大指定迭代次数。 梯度下降法在机器学习中应用广泛,尤其是在深度学习中。AdaDelta,AdaGrad,Adam,NAG等改进的梯度下降法都是用梯度构造更新项,区别在于更新项的构造方式不同。对梯度下降法更全面的介绍可以阅读SIGAI之前的文章“ 理解梯度下降法 ”。 3.牛顿法的关键点 牛顿法利用了函数的一阶和二阶导数信息,直接寻找梯度为0的点。牛顿法的迭代公式为: 其中H为Hessian矩阵,g为梯度向量

[转] 矩阵分解介绍

我们两清 提交于 2019-12-02 18:03:13
from: https://www.cnblogs.com/marsggbo/p/10152644.html#autoid-4-0-0 https://www.cnblogs.com/marsggbo/p/10156077.html 1 | 0 I. 行列式(Determinants)和迹(Trace) 1 | 1 1. 行列式(Determinants) 为避免和绝对值符号混淆,本文一般使用 𝑑 𝑒 𝑡 ( 𝐴 ) det(A)来表示矩阵 𝐴 A的行列式。另外这里的 𝐴 ∈ 𝑅 𝑛 × 𝑛 A∈Rn×n默认是方阵,因为只有方阵才能计算行列式。 行列式如何计算的就不在这里赘述了,下面简要给出行列式的各种性质和定理。 定理1 :当且仅当一个方阵的行列式不为0,则该方阵可逆。 定理2 :方阵 𝐴 A的行列式可沿着某一行或某一列的元素展开,形式如下: 沿着第 𝑖 i行展开: 𝑑 𝑒 𝑡 ( 𝐴 ) = ∑ 𝑘 = 1 𝑛 ( − 1 ) 𝑘 + 𝑖 𝑎 𝑖 𝑘 𝑑 𝑒 𝑡 ( 𝐴 𝑖 , 𝑘 ) det(A)=∑k=1n(−1)k+iaikdet(Ai,k) 沿着第 𝑖 i列展开: 𝑑 𝑒 𝑡 ( 𝐴 ) = ∑ 𝑘 = 1 𝑛 ( − 1 ) 𝑘 + 𝑖 𝑎 𝑘 𝑖 𝑑 𝑒 𝑡 ( 𝐴 𝑘 , 𝑖 ) det(A)=∑k=1n(−1)k+iakidet(Ak,i) 定理3

线性代数 | (10) 相似对角形

若如初见. 提交于 2019-12-02 14:43:11
目录 1. 矩阵的相似 2. 特征值与特征向量的求法 3. 特征值与特征向量的性质 4. 一般矩阵的相似对角形 5. 实对称矩阵特征值与特征向量的性质 6. 实对称矩阵的相似对角化 1. 矩阵的相似 矩阵的相似 (iv)的证明: 矩阵的特征值和特征向量 2. 特征值与特征向量的求法 由此可见矩阵的k重特征值不一定有k个线性无关的特征向量。 3. 特征值与特征向量的性质 用数学归纳法证明: 上节课的例题: 推论 例题 特征值求法公式 特征值与矩阵的关系 矩阵A的特征值之和=trace(A) 即矩阵A的迹。 练习 4. 一般矩阵的相似对角形 矩阵与对角阵相似的条件 推论:若n阶矩阵A有n个互异的特征值,则A与对角阵相似,反之不对。 n阶矩阵能够与对角阵相似,取决于矩阵能否有n个线性无关的特征向量。 若n阶矩阵A有n个互异的特征值,则A与对角阵相似;若矩阵A有重特征值,不能马上断言,这时要看特征向量,实际上,只要k重特征值对应k个线性无关的特征向量即可。 练习 矩阵相似对角化的方法 矩阵相似对角化的步骤 练习 5. 实对称矩阵特征值与特征向量的性质 性质1 实对称矩阵的特征值都是实数。 证明一个数是实数,就是证明该数的共轭与该数相等。 性质2 实对阵矩阵的相异特征值所对应的特征向量必定正交。 对于一般矩阵,只能保证相异特征值所对应的特征向量线性无关。 性质3

Bounding Box回归

冷暖自知 提交于 2019-12-02 06:58:07
简介 Bounding Box非常重要,在rcnn, fast rcnn, faster rcnn, yolo, r-fcn, ssd,到今年cvpr最新的yolo9000都会用到。 先看图 对于上图,绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5),那么这张图相当于没有正确的检测出飞机。 如果我们能对红色的框进行微调, 使得经过微调后的窗口跟Ground Truth 更接近, 这样岂不是定位会更准确。 确实,Bounding-box regression 就是用来微调(注意这个字眼--微调)这个窗口的。 1、边框回归是什么? 对于窗口一般使用四维向量(x, y, w, h)来表示, 分别表示窗口的中心点坐标和宽高(注意这里是中心点,其实都一样)。对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G。 边框回归的目的既是:给定(Px, Py, Pw, Ph)寻找一种映射f,使得f(Px,Py,Pw,Ph) = (Gx,Gy,Gw,Gh)并且(Gx,Gy,Gw,Gh)约等于f。

使用协方差矩阵的特征向量PCA来处理数据降维

六眼飞鱼酱① 提交于 2019-12-02 02:10:44
取2维特征,方便图形展示 import matplotlib.pyplot as plt from sklearn.decomposition import PCA from sklearn.datasets import load_iris data = load_iris() y = data.target X = data.data pca = PCA(n_components=2) reduced_X = pca.fit_transform(X) red_x, red_y = [], [] blue_x, blue_y = [], [] green_x, green_y = [], [] for i in range(len(reduced_X)): if y[i] == 0: red_x.append(reduced_X[i][0]) red_y.append(reduced_X[i][1]) elif y[i] == 1: blue_x.append(reduced_X[i][0]) blue_y.append(reduced_X[i][1]) else: green_x.append(reduced_X[i][0]) green_y.append(reduced_X[i][1]) plt.scatter(red_x, red_y, c='r', marker='x')

吴恩达-深度学习课程笔记1-2.1 二分类Binary Classification

江枫思渺然 提交于 2019-12-01 19:17:35
         图1                     图2   一张64*64像素的图片如图1,在计算机中保存形式如图2所示。三个64*64的矩阵,分别对应图片中红、黄、蓝三种像素的强度值。我们把这些像素值提取出来放到一个特征向量x, 而x的总维度n x 将是64*64*3=12288。二分类问题中,我们的目标就是以图片的特征向量作为输入,然后预测输出结果y是1还是0,即图片中有猫还是没猫。 n x :输入特征向量的维度,有时直接用n表示; m:表示训练样本数,有时用M tarin :表示训练集样本数,M test 表示测试集样本数; x:表示一个n x 维数据,为输入数据,维度(nx, 1); y:表示输出结果,取值(0, 1); (x (i), y (i) ):表示第i组训练数据; X = [x (1) , x (2) , ... ,x (m) ]: 来源: https://www.cnblogs.com/Mike2019/p/11713979.html

SIGAI深度学习第五讲 自动编码器

混江龙づ霸主 提交于 2019-12-01 18:33:24
深度学习模型-自动编码器(AE),就是一个神经网络的映射函数,f(x)——>y,把输入的一个原始信号,如图像、声音转换为特征。 大纲: 自动编码器的基本思想 网络结构 损失函数与训练算法 实际使用 去燥自动编码器 稀疏编码 收缩自动编码器 多层编码器 本集总结 自动编码器的基本思想: 人工神经网络实现的是一个向量X映射为另一个向量Y(R n ——>R m ,m<<n),通过多层复合函数来实现,Y一般设置为样本标签向量label。AE把Y设置为从原始数据X提取出的特征向量,如X是一个高维的图像或声音。而Y是自动训练出来的,不需要人工指定,因此需考虑怎么设置训练目标函数。 直接用一个单层或者多层神经网络对输入数据进行映射,得到输出向量,作为从输入数据提取出的特征。核心问题:怎么设置训练目标?解决思想:编码器+解码器框架。 网络结构: 编码器-将输入数据映射为特征向量,解码器-将特征向量映射回输入向量重构。 类似于PCA,不过PCA直接计算目标函数L,不用训练。 损失函数与训练算法: 损失函数定义为重构误差,类似PCA的做法。损失函数: ,h是编码器的映射函数,g是解码器的映射函数。x i 编码之后再解码和原始数据x i尽可能的接近。xunlianhao 训练算法和普通的神经网络相同,用BP算法训练,梯度下降法SGD、GD 来源: https://www.cnblogs.com

为什么要找特征向量?

放肆的年华 提交于 2019-12-01 09:49:36
1. 前情提要 : 向量是空间中的点 矩阵就是空间的映射,比如 y = Ax (x,y均未向量),是将 x 向量在 A 矩阵的作用下映射成 y 向量 左乘矩阵 A 可理解成改变了默认基地 基底改变--> 理解空间扭曲 (动图出处:公众号--meetmath) 2. 正文 来源: https://www.cnblogs.com/KongHuZi/p/11676531.html