老司机带你检测相似图片
欢迎大家前往 腾讯云技术社区 ,获取更多腾讯海量技术实践干货哦~ 作者: 雷经纬 导语 本文从从图片的dhash,ahash,phash,颜色分布向量到基于语义的sift,surf,gist特征,构建一套分层相似图片检测系统。本文致力于零基础单机快速搭建一个可用的相似图片识别系统。 1 背景 相似图片检测的定义是人眼看起来像,比如下面的俩图。 相似图片的检测广泛用于图片去重,仿冒图标检测,图片检索等。本文也是基于图标相似检测的需求去做的,本意是用于打假。然而专家老中医告诉我,打假不如推荐相似app受市场欢迎,并且不同应用场景下我们做事的思路也会不同。不管了,先把相似图片识别出来 2 检测的原理 图片相似检测无非是提取图片某个维度的特征,根据算法两两计算相似度。(基于机器学习,深度学习的方法则会先构建一个模型,然后将新样本特征输入模型即可。)简单流程可以描述为: 检测过程中可能用到的7个基础特征如下: 简单解释下,dhash,ahash,phash是根据基于分块等某种算法得到的基于图片RGB值的某个哈希(其详细描述可参考 http://itindex.net/detail/42723 );RGB向量则是将色彩从256 256 256映射到较小的区间如4 4 4,然后计算图片在每个区间的分布形成一个数组; SIFT,SURF,GIST则不再是RGB值的某种统计