Coefficient

相似度算法

耗尽温柔 提交于 2021-01-20 10:54:46
今天梳理的是底层的应用算法,计算相似度的。这种算法在nlp,推荐系统领域比较常见,其他的地方怎么用就仁者见仁啦~ 相似度算法 算法名称 简单描述 LCS 最长公共子序列 Hamming Distance 汉明距离 Cosine Similarity 余弦相似度算法 Euclidean Distance 欧式距离 Pearson Correlation Coefficient 皮尔逊相关系数 Manhattan Distance 曼哈顿距离 Minkowski Distance 明可夫斯基距离 Jaccard Similarity Jaccard系数 1、欧式距离(Euclidean Distance) 欧式距离全称是欧几里距离,是最易于理解的一种距离计算方式,源自欧式空间中两点间的距离公式。 3. Python 代码简单实现: def EuclideanDistance(x,y): d = 0 for a,b in zip(x,y): d += (a-b)**2 return d**0.5 4. 使用 numpy 简化: import numpy as np def EuclideanDistance(dataA,dataB): # np.linalg.norm 用于范数计算,默认是二范数,相当于平方和开根号 return 1.0/(1.0 + np.linalg.norm

基于 OpenCV 的图像分割

*爱你&永不变心* 提交于 2021-01-17 05:56:34
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 本期我们将一起来实现一个有趣的问题 -图像分割的算法。 本文的示例代码可以在以下链接中找到: https://github.com/kiteco/kite-python-blog-post-code/tree/master/image-segmentation 作为我们的例子,我们将对KESM显微镜获取的图像进行分割以获取其中的血管组织。 数据科学家和医学研究人员可以将这种方法作为模板,用于更加复杂的图像的数据集(如天文数据),甚至一些非图像数据集中。由于图像在计算机中表示为矩阵,我们有一个专门的排序数据集作为基础 。 在整个处理过程中,我们将使用 Python 包,以及OpenCV、scikit 图像等几种工具。除此之外,我们还将使用 numpy ,以确保内存中的值一致存储。 主要内容 去噪 为了消除噪声,我们使用简单的中位数滤波器来移除异常值,但也可以使用一些不同的噪声去除方法或伪影去除方法。这项工件由采集系统决定(显微镜技术),可能需要复杂的算法来恢复丢失的数据。工件通常分为两类: 1. 模糊或焦点外区域 2. 不平衡的前景和背景(使用直方图修改正确) 分割 对于本文,我们使用Otsu 的方法分割,使用中位数滤波器平滑图像后,然后验证结果。只要分段结果是二进制的

相关系数之皮尔森相关系数

丶灬走出姿态 提交于 2021-01-11 05:55:19
皮尔森相关系数(Pearson Correlation Coefficient) 先讲几个统计学中一些基本的数学概念: 数学期望就是平均值: 均值公式: 方差: 或者: 另一种形式: 标准差: 标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多。 协方差: 展开: 或者: 从直观上来看,协方差表示的是两个变量总体误差的期望。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 如果 X 与 Y 是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足 E [ XY ]= E [ X ] E [ Y ] 故协方差主要用来度量各个维度偏离其均值的程度。如果结果为正值

回归算法比较【线性回归,Ridge回归,Lasso回归】

爱⌒轻易说出口 提交于 2021-01-08 08:58:29
代码实现: 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Mon Jul 16 09:08:09 2018 4 5 @author: zhen 6 """ 7 8 from sklearn.linear_model import LinearRegression, Ridge, Lasso 9 import mglearn 10 from sklearn.model_selection import train_test_split 11 import matplotlib.pyplot as plt 12 import numpy as np 13 # 线性回归 14 x, y = mglearn.datasets.load_extended_boston() 15 x_train, x_test, y_train, y_test = train_test_split(x, y, random_state= 0) 16 17 linear_reg = LinearRegression() 18 lr = linear_reg.fit(x_train, y_train) 19 20 print ( " lr.coef_:{} " .format(lr.coef_)) # 斜率 21 print ( " lr.intercept_:{} "

音频分类技术

天涯浪子 提交于 2020-11-12 03:22:57
音频分类前置知识 音频 音频常常被表示为波形图,其中横轴为时间,纵轴为幅值。音频多种多样,分类中一般分为语音、音乐、噪音、静音和环境音等。 采样频率 每秒从模拟信号中采集的样本个数,基本单位为 Hz 。信号的采样频率一般遵循奈奎斯特采样定理,即采样频率必须大于被采样信号最高频率的两倍。一般而言: 8000Hz 为电话信号使用的采样率; 11025Hz 通话音质更高,可分辨出通话人; 16000Hz 可覆盖几乎所有的乐器和人声频率,也是大多数成年人能够听到的声音频率; 22050Hz 为无线电广播长采用的频率; 32000Hz 为 VCD 等多媒体数据文件所使用的采样率; 44100Hz 为CD音频使用的采样率; 192000Hz 为蓝光音轨和高清晰度DVD音轨的采样率。 采样位数 每一个采样点所使用的二进制位数,即计算机对声音信号的解析度。通常使用的采样位数有8位,16位和24位。 音频的构成要素 声学三要素:声音的音调、音色和响度。 音调:也称音高,对应音频信号的频率。音频信号的音调越高月能够给人以明亮和尖锐的感觉,音调越低越是给人厚重和低沉的感觉。 音色:也称音品,对应音频信号的相位。主要由音频信号波形的包络和信号谐波的频谱,包含不同包络和不同谐波的音频信号的内容也不同。音频信号频谱的基频所产生的能量最大的音称为基音,相应的各次谐波所发出的声音一般被称为泛音

基于python OpenCV多边形图像识别的实现

岁酱吖の 提交于 2020-10-09 00:12:57
首先说一下我的整体思路: ① 首先定义了一个识别器类型,封装了计算边长,识别形状和展示结果三个函数。 ② 主函数先读入图片,然后将图片转化为灰度图片,然后高斯滤波平滑处理,然后将灰度图片转化为黑白两色图片。 ③ 调用函数识别图片中所有的轮廓,然后列表形式返回图片,轮廓等信息,然后只取轮廓的所有点信息(每个点的信息为平面坐标)作为一个列表程序(第91,92,93行代码) ④ 用之前创建的识别器实例对每个轮廓中的点进行多边形拟合,得到顶点的坐标的列表中去(class中28~32行代码) ⑤ 输出识别结果 以下是代码部分: import cv2 import math THRESHOLE_VALUE = 60 COEFFICIENT = 0.02 class ShapeDetector : #初始化类 def __init__ ( self ) : #字典类型对应每一种图形的计数器 self . counter = { "unrecognized image" : 0 , "triangle" : 0 , "rhombus" : 0 , "rectangle" : 0 , "pentagon" : 0 , "hexagon" : 0 , "circle" : 0 } #初始化图形类型为不可识别 self . shape = "unrecognized image" #图形顶点集置空

从近期两篇论文看大规模商品图嵌入

人盡茶涼 提交于 2020-09-28 17:38:50
©PaperWeekly 原创 · 作者|桑运鑫 学校|上海交通大学硕士生 研究方向|图神经网络在金融领域的应 用 GATNE 论文标题: Representation Learning for Attributed Multiplex Heterogeneous Network 论文来源: KDD 2019 论文链接: https://arxiv.org/abs/1905.01669 代码链接: https://github.com/THUDM/GATNE 这篇论文提出了一种在 Attributed Multiplex Heterogeneous Network 上进行嵌入学习的框架 GATNE,该框架同时支持转导式学习(transductive learning)和归纳式学习(inductive learning),在 Amazon,Youtube,Twitter 和 Alibaba 四个数据集上取得显著提升。 相比于传统的只有一种边或只有一种节点的图,Attributed Multiplex Heterogeneous Network(AMHEN)中包含多种节点,多种边,每种节点都有不同的属性,各种类型的图有代表性的嵌入方法如下表所示。 AMHEN 有以下几个问题: 每对节点之间可能有多种类型的边,需要对每种关系都学习不同的表示。 很多图嵌入方法都是转导式学习

斯坦福Machine Learning with Graphs 学习笔记(第二讲)

最后都变了- 提交于 2020-08-19 17:29:14
作者: 于媛,十三鸣 本文长度为 3300字 ,建议阅读 10+分钟 本文为大家介绍常用的网络属性和经典的网络模型。 [ 导读 ] 在研究网络的时候,我们往往需要从结构层面对网络进行分析,网络属性可视为对网络结构的静态刻画,而网络模型则能帮助我们从动态的网络生成的过程了解网络结构。这节我们主要介绍一些常用的网络属性和一些经典的网络模型。 目录 一、网络属性(Network Properties) 二、Erdös-Renyi Random Graph Model 三、Small-World Model 四、Kronecker Graph Model 五、Stochastic Kronecker Graph Model 一、网络属性(Network Properties) 1. 度分布(degree distribution)P(k) 度分布指的是对一个图(网络)中顶点(节点)度数的总体描述。对于随机图,度分布指的是图中顶点度数的概率分布。 Nk表示度数为k的节点, N表示网络中度的总数,则度分布为: 通常我们用直方图的形式来表示图的度分布,如下图: 2. 路径(path) Pn 路径指一个顶点序列,使得从它的每个顶点有一条边到该序列中下一顶点。一条道路可能是无穷的,但有限道路一定会有一个最先的顶点(称为起点)和最后的顶点(称为末点),即路径的端点。同时,路径也可以经过一个点多次,比如

机器学习10种经典算法的Python实现

一个人想着一个人 提交于 2020-08-14 03:07:09
广义来说,有三种机器学习算法 1、 监督式学习 工作机制:这个算法由一个目标变量或结果变量(或因变量)组成。这些变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。监督式学习的例子有:回归、决策树、随机森林、K – 近邻算法、逻辑回归等。 2、非监督式学习 工作机制:在这个算法中,没有任何目标变量或结果变量要预测或估计。这个算法用在不同的组内聚类分析。这种分析方式被广泛地用来细分客户,根据干预的方式分为不同的用户组。非监督式学习的例子有:关联算法和 K – 均值算法。 3、强化学习 工作机制:这个算法训练机器进行决策。它是这样工作的:机器被放在一个能让它通过反复试错来训练自己的环境中。机器从过去的经验中进行学习,并且尝试利用了解最透彻的知识作出精确的商业判断。 强化学习的例子有马尔可夫决策过程。 常见机器学习算法名单 这里是一个常用的机器学习算法名单。这些算法几乎可以用在所有的数据问题上: 线性回归 逻辑回归 决策树 SVM 朴素贝叶斯 K最近邻算法 K均值算法 随机森林算法 降维算法 Gradient Boost 和 Adaboost 算法 1、线性回归 线性回归通常用于根据连续变量估计实际数值(房价、呼叫次数、总销售额等)

如何理解皮尔逊相关系数(Pearson Correlation Coefficient)

一世执手 提交于 2020-08-12 18:29:39
先说结论: 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进, 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进, 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进. 如果参加过高考, 那么肯定会这么一个公式: cos<a, b> = a • b / |a|•|b| 假设a = (3, 1, 0), b = (2, -1, 2) 分子是a, b两个向量的内积, (3, 1, 0) • (2, -1, 2) = 3•2 + 1•(-1) + 0•2 = 5 分母是两个向量模(模指的是向量的长度)的乘积. 总之这个cos的计算不要太简单...高考一向这是送分题... 然后问题来了, 皮尔逊系数和这个cos啥关系... 皮尔森相关系数计算公式 其实皮尔逊系数就是cos计算之前两个向量都先进行中心化(centered)...就这么简单 来源: oschina 链接: https://my.oschina.net/u/4389791/blog/4488252