聚类

常用图像分类功能包

我的梦境 提交于 2020-10-24 17:04:30
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 为了能够有效地识别位置,我们需要提取表征图像的特征,之后将相同的特征分成一组,并搜索相似的图像。当然位置识别也可以应用于其他程序,例如在图像恢复我们也需要查找相似图像。 Bag of Feature是一种图像特征提取方法。它借鉴了文本分类(Bag of Words)的思想,从图像中提取出许多具有代表性的 关键词 ,形成字典,然后对每个图像中出现的关键词数量进行计数,以获得图片的特征向量。 获得特征向量后,我们通过聚类算法得到这些特征向量的聚类中心。将这些聚类中心组合在一起,形成 字典 。 对于图像中的每个特征,我们可以在字典中找到最相似的聚类中心,计算这些聚类中心的出现次数,并获得一个称为 Bag 的矢量表示。因此,对于区别越大的图片此矢量的区分度越大。 索引本地特征 为了获得词汇量,我们需要大量数据,即需要足够大的数据集。然后,对于每个图像,通常使用 SIFT 提取特征和描述符特征,并将其映射到描述符空间中。 提取特征后,使用一些聚类算法对这些特征向量进行聚类。最常用的聚类算法是 k-means 。它将样本数据的自然类别分为k个聚类,以便每个点都属于与最近的聚类中心相对应的聚类。用作聚类标准的类满足使聚类中心与属于该中心的数据点之间的平方距离之和最小的要求。 K

基于RBF神经网络的信用分类方法

前提是你 提交于 2020-10-24 09:40:01
简要介绍金融数据挖掘,RBF神经网络。提出基于RBF神经网络的信用分类的一种方法。此方法可根据客户提供的烦多而复杂的资料数据来评估客户信用的好坏。发挥RBF神经网络模拟生物体中神经网络的某些结构和功能,能进行重复学习的特性。将客户资料与客户信用之间的非线性关系放进RBF网络这个“黑闸子”里面。用已有数据对网络进行训练,让它学习,调整“黑闸子”里面的各权值等。再用训练好的网络来对客户信用进行评估。 所谓个人信用评估,是指通过使用科学严谨的分析方法,综合考察影响个人信用状况的主客观因素,并对其履行债务的意愿和能力进行全面的判断和评估。个人信用评估方法主要分为定性分析和定量分析两种,前者以信贷人员的主观判断法为代表,后者以信用评分卡和信用评分模型为代表。 个人信用评估体系对消费信贷的促进作用主要表现在: (1)增进授信决策的速度,将客户繁杂的个人信息加以具体化,以代号(或等级、分数等)表示客户信用的品质,使信贷人员一目了然,便于快速做出决策。 (2)个人信用评估结果可以作为确定信用额度、信用条件之参考,例如在什么范围的评估结果必须提供担保品或保证人,在什么评估标准以下不得授予信用等。 (3)有效降低消费信贷风险,一方面,可以约束个人行为,引导个人自动守约,另一方面,则可以精确估计消费信贷风险,最大限度地防止不良贷款的产生。 (4)帮助商业银行按照风险对客户进行分类

炼丹记之国家电投2020风电机组异常数据识别与清洗 baseline f1=0.858分享

元气小坏坏 提交于 2020-10-23 21:25:11
赛题地址: https://www.datafountain.cn/competitions/451 赛题任务: 依据提供的12台风力电机1年的10min间隔SCADA运行数据,包括时间戳信息、风速信息和功率信息等,利用机器学习相关技术,建立鲁棒的风电机组异常数据检测模型,用于识别并剔除潜在的异常数据,提高数据质量。 此任务未给出异常数据标签,视为聚类任务,为引导选手向赛题需求对接,现简单阐述异常数据定义。异常数据是由风机运行过程与设计运行工况出现较大偏离时产生,如风速仪测风异常导致采集的功率散点明显偏离设计风功率。 数据介绍: https://www.datafountain.cn/competitions/451/datasets 以下是线上 f1 0.858方案: #!/usr/bin/env python # coding: utf-8 import pandas as pd import numpy as np from tqdm import tqdm from matplotlib import pyplot as plt data_df = pd.read_csv('../data/dataset.csv') fan_info = pd.read_csv('../data/12faninfo.csv', names=["WindNumber", "fan_diam"

特征工程之特征预处理

狂风中的少年 提交于 2020-10-21 02:02:55
    在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化      由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体的预处理操作。     z-score标准化:这是最常见的特征预处理方式,基本所有的线性模型在拟合的时候都会做 z-score标准化。具体的方法是求出样本特征x的均值mean和标准差std,然后用(x-mean)/std来代替原特征。这样特征就变成了均值为0,方差为1了。在sklearn中,我们可以用StandardScaler来做z-score标准化。当然,如果我们是用pandas做数据预处理,可以自己在数据框里面减去均值,再除以方差,自己做z-score标准化。     max-min标准化:也称为离差标准化,预处理后使特征值映射到[0,1]之间。具体的方法是求出样本特征x的最大值max和最小值min,然后用(x-min)/(max-min)来代替原特征。如果我们希望将数据映射到任意一个区间[a,b],而不是[0,1],那么也很简单。用(x-min)(b-a)/(max-min)+a来代替原特征即可。在sklearn中,我们可以用MinMaxScaler来做max

从核心算法到工程实践,谷歌声纹识别负责人带你学习声纹技术

纵饮孤独 提交于 2020-10-20 09:32:47
说起「指纹」,大家都不会感到陌生。凭着每个人的指纹都不一样的特性,指纹识别技术获得了广泛的利用。 和指纹相比,「声纹」的概念略显陌生。严格来讲,虽然声音并不具备真正意义上的纹理,但每个人的发音器官包括声带、声管等在大小和形状上会有所差异,同时由于性别、年龄和地域的影响,使得我们每个人都有着不一样的声音。 广义上讲,所有可以区分每个人不同声音的特征,都可以称为「声纹」。由于这些特征的存在,声纹和指纹一样,衍生出各种实用的技术。 声纹技术中最为核心的一项便是声纹识别技术。和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。除了声纹识别之外,声纹技术也被广泛用于声纹分割聚类, 以及构建更为强大的语音识别、语音合成以及人声分离系统。 近年来,谷歌在声纹技术上的研究颇多。最近,谷歌声纹识别与语言识别团队负责人王泉老师为国内读者度身打造了一本声纹技术宝典——《声纹技术:从核心算法到工程实践》。 这本书系统性地介绍了声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中的应用。书中内容全面且紧随时代前沿,不仅涵盖了早至20世纪60年代的经典方法,还以大量篇幅着重介绍了深度学习时代的最新技术。这本书注重理论与实践的结合,除了配备大量实践案例与习题,还有专门章节介绍声纹技术在实际工程部署方面的诸多课题。

【2020 电设G题 图像题解】

怎甘沉沦 提交于 2020-10-19 08:50:37
目录 1、题目要求 2、解题 一、系统方案 1.1 技术路线 1.2 系统结构 1.3 方案论证比较 二、理论分析与计算 2.1 物体形状的测量方法 2.2 物体尺寸的测量方法 三、误差分析 3、图像代码 1、题目要求 2、解题 本设计采用STM32F103ZET单片机作为主处理器,设计了非接触物体尺寸形态测量系统,包括核心板模块、主板降压及管脚设计模块、键盘输入模块、图像处理模块、激光测距模块、LCD彩屏模块、蜂鸣器模块、led灯模块、以及机械模型构成。系统采用OpenMV4 H7 Cam摄像头、STM32单片机、舵机构成闭环反馈电路,根据激光测距反馈回的信息,以及图像处理后反馈,控制舵机对方向及角度进行处理使摄像头和激光对准识别物,利用图像的处理来判断识别物的形状和尺寸,再利用激光测距模块测量出测量头中心点与被测目标之间的距离。该系统具有良好的性能,且具有很好的稳定性。 一、系统方案 1.1 技术路线 本系统采用Open mv、云台构成闭环回路系统。其中Open mv获得的位置信息反馈到单片机,单片机根据位置信息控制云台转向。达到目标之后,通过单片机控制激光测距模块进行距离的测量和通过 Open mv进行图像的处理来判断识别物的形状及尺寸。 1.2 系统结构 总体结构分为3个部分:输入输出的显示板、主控板、电源。其他模块通过接口与主控板相连。各个模块协调

学术分享丨假肢手的综述(2)

╄→гoц情女王★ 提交于 2020-10-18 17:22:14
   随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。今年以来,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,本期与大家分享《假肢手的综述(2)》。   第一次假手的应用可以追溯到第二次布匿战争早期(公元前218-201年),罗马将军马库斯·塞尔吉乌斯(Marcus Sergius)在战争中失去了右臂,他的假手臂是用铁制成的。   在16世纪早期,德国雇佣兵戈兹·冯·贝里辛根戴着两只假手。第一个是一个简单的装置,由一个拇指和手指连接的手套组成。手指可以向内移动,这样他就可以握紧他的剑了。另一种升级版的手可以独立移动指骨和拇指,骑士可以握住马缰,拿起羽毛笔。16世纪中叶,法国军医Ambroise Pare发明了弹簧式假肢,手指可以用杠杆和齿轮独立操作。Pare还开发了肘部假手上方,杠杆和链轮机构控制着屈伸。自动身体动力假肢始于18世纪的彼得·巴利夫(Peter Baliff),假肢由肩部和躯干的完整肌肉驱动,使用皮革带作为传输机制。1911年,威廉·T·卡恩斯(William T.Carnes)发明了另一种复杂的机械假肢并获得了专利。以上假体受健康肢体或胸部的整体运动控制。   19世纪初,随着朱利亚诺·万赫蒂博士的“电影整形植入物

如何利用BI工具做银行零售客户流失预测

别说谁变了你拦得住时间么 提交于 2020-10-17 19:44:12
现在银行产品同众化现象普遍存在,客户选择产品和服务的途径越来越多,客户对产品的忠诚度越来越低,所以客户流失已经成为银行业最关注的问题之一。而获得新客的成本远高于维护老客户成本。因此,从海量客户交易数据中挖掘出对流失有影响的信息,建立高效的客户流失预警体系,提前做好营销挽留,降低流失风险尤为重要。 这里提到了数据挖掘,那什么是数据挖掘呢?其实就是从大量的数据中去发现有用的信息,根据这些信息来辅助决策。数据挖掘揭示的是未知的、将来的数据关系,主要的作用就是预测,采用计算机技术、统计学、模型算法等。 模型算法有分类算法、回归算法、聚类算法等,每种算法类型又包含多种不同的算法,例如分类算法,就包含逻辑回归、朴素贝叶斯、决策树等,使用的编程语言有Java语言、Python,大家听了是不是觉得很专业、很复杂?今天给大家推荐一款简单易用的工具——Smartbi Mining,是由Smartbi推出的独立产品,旨在为个人、团队、企业所做的决策提供预测性分析。 Smartbi Mining具有流程化、可视化的建模界面,内置实用的、经典的统计挖掘算法和深度学习算法,并支持Python扩展算法,基于分布式云计算,可以将模型发送到Smartbi统一平台,与BI平台完美整合。 简单拖拉拽就可轻松完成预测,实在是太方便。下面我们就看看银行零售客户流失是如何进行预测的吧。 我们先了解一下数据的流程

【转】PostgreSQL 文本数据分析实践之

吃可爱长大的小学妹 提交于 2020-10-14 05:38:45
背景 在日常的生活中,我们可能会经常需要一些像相近、相仿、距离接近、性格接近等等类似这样的需求,对数据进行筛选。 这些需求PostgreSQL居然都支持,是不是很变态。 变态的例子 这些场景都支持索引排序和检索,否则怎么叫变态呢。 按长相相似度排序 比如最近的王宝强和马蓉的事件,估计很多人会拿宋喆的照片进行相似度的搜索,八卦八卦。 说起图像搜索,我前几天才写了一篇这样的文章,是关于在PG数据库中使用图像搜索插件的文章。 《弱水三千,只取一瓢,当图像搜索遇见PostgreSQL(Haar wavelet)》 https://yq.aliyun.com/articles/58246 按喜好重合度排序 比如收集了人群的各种喜好的数据,按喜好进行聚类,或者按喜好的重叠度进行排序,找出目标人群。 按年龄相近程度排序 这个相对简单,比如输入23岁,按接近23岁的输出即可。 例子 https://www.postgresql.org/docs/9.5/static/btree-gist.html 输出与100最接近的10条数据。 postgres= # create extension btree_gist; CREATE EXTENSION postgres =# create table test12( id int ); CREATE TABLE postgres =# insert

软件测试——黑盒测试,看完你就明白了

不打扰是莪最后的温柔 提交于 2020-10-14 03:00:09
软件测试——黑盒测试 同步滚动: 开 一、黑盒测试: 1、定义: 把被测程序视为一个不能打开的黑盒子,在完全不考虑程序内部结构和内部特性的情况下进行测试,也叫做功能测试或者是数据驱动测试。 黑盒测试并不是无知的测试,它意味着产品内部知识在测试中不起重要作用,同时强调有关软件的用户和环境知识。 2、目的: 在已知软件产品所应具有的功能的基础上进行测试: (1)、检查程序功能能否按需求规格说明书的规定正常使用,测试各个功能是否有遗漏,检测性能等特性要求是否满足; (2)、检测人机交互是否错误,检测数据结构或外部数据库访问是否错误,程序是否能适当地接收输入数据而产生正确的输出结果; (3)、检测程序初始化和终止方面的错误。 3、优缺点: 优点: (1)、针对性地寻找问题,并且定位问题更准确。 (2)、黑盒测试可以证明产品是否达到用户要求的功能,符合用户的工作要求。 (3)、能重复执行相同的动作,测试工作中最枯燥的部分可交由机器完成。 缺点: (1)、需要充分了解产品用到的技术,测试人员需要具有较多经验。 (2)、在测试过程中很多是手工测试操作。 (3)、测试人员要负责大量文档、报表的编制和整理工作。  4、静态黑盒和动态黑盒: (1)、静态黑盒:文档测试,特别是产品需求文档、用户手册、帮助文件等的审查。 (2)、动态黑盒:通过数据输入并运行程序来检验输出结果。 二、黑盒测试用例设计方法: