聚类

数据竞赛实战(4)——交通事故理赔审核

痞子三分冷 提交于 2020-04-24 23:03:47
前言 1,背景介绍   在交通摩擦(事故)发生后,理赔员会前往现场勘察、采集信息,这些信息往往影响着车主是否能够得到保险公司的理赔。训练集数据包括理赔人员在现场对该事故方采集的36条信息,信息已经被编码,以及该事故方最终是否获得理赔。我们的任务是根据这36条信息预测该事故方没有被理赔的概率 2,任务类型   入门二元分类模型 3,数据文件说明 train.csv        训练集    文件大小为15.6MB test.csv      预测集   文件大小为6.1MB sample_submit.csv   提交示例 文件大小为1.4MB 4,数据变量说明    训练集中共有200000条样本,预测集中有80000条样本。 5,评估方法   你的提交结果为每个测试样本未通过审核的概率,也就是Evaluation为1的概率。评价方法为精度-召回曲线下面积(Precision-Recall AUC),以下简称PR-AUC。   PR-AUC的取值范围是0到1。越接近1,说明模型预测的结果越接近真实结果。 5.1 精度和召回的定义和计算方式如下:  可以参考博文: 机器学习笔记:常用评估方法   首先,我们先从混淆矩阵聊起,混淆矩阵是用来总结一个分类器结果的矩阵,对于K元分类,其实它就是一个 k * k 的表格,用来记录分类器的预测结果。   对于最常见的二元分类来说

SciPy fftpack(傅里叶变换)

时光总嘲笑我的痴心妄想 提交于 2020-04-24 22:44:48
<div class="article-child "><h2>章节</h2><ul><li class="page_item page-item-3474"><a href="https://www.qikegu.com/docs/3474">SciPy 介绍</a></li> <li class="page_item page-item-3477"><a href="https://www.qikegu.com/docs/3477">SciPy 安装</a></li> <li class="page_item page-item-3479"><a href="https://www.qikegu.com/docs/3479">SciPy 基础功能</a></li> <li class="page_item page-item-3590"><a href="https://www.qikegu.com/docs/3590">SciPy 特殊函数</a></li> <li class="page_item page-item-3484"><a href="https://www.qikegu.com/docs/3484">SciPy k均值聚类</a></li> <li class="page_item page-item-3488"><a href="https://www

【论文阅读】Binary Multi-View Clustering

橙三吉。 提交于 2020-04-24 07:26:57
文章地址: https://ieeexplore.ieee.org/document/8387526 出自: IEEE Trans. on Pattern Analysis and Machine Intelligence , 2018. 本文是对《Binary Multi-View Clustering》一文的个人理解总结,详细内容敬请阅读原文。 一、主要解决的问题 1、多视角的大尺度的数据集聚类性能表现欠佳; 2、实值聚类消耗较大的内存资源和计算资源; 2、编码和聚类是独立的,不能相互作用。 二、创新点 1、BMVC是第一个使用二进制编码技术解决大规模多视图聚类问题的方法,BMVC同时从多个视图和联合优化二进制编码和聚类。 2、提出了一种交替优化算法用于解决离散的优化问题,。针对二值聚类中心学习的关键子问题,还提出了一种自适应离散近似线性方法(ADPLM)。 3、BMVC具有较好的聚类性能,还明显更少的计算时间和内存开销,内存和时间上快的不止一点,这一点真的很好。 三、文章概要: 文章是编码的多视角聚类问题。首先说明什么是多视角和如何编码,然后从哈希编码联合聚类模型、优化以及实验分析三个方面简述文章主要思想和实验设计。 所谓多视角,引用原文:1. Different to single-view clustering using singular data descriptor

前端技术专家(P8)的规划能力如何训练,答案全给你

非 Y 不嫁゛ 提交于 2020-04-24 02:02:55
前端早早聊大会,前端成长新起点,帮你提前二十天,站在新的起跑线,目标成为 用得上,听得懂,抄得走 的前端大会,计划 2020 年办 12 期,由前端早早聊与掘金联合举办。 第五届 - 前端监控体系如何搭建/用户行为/产品质量如何跟踪,4 月 25 日举行,8 位讲师,8 个小时,全天直播,报名链接: huodongxing.com/go/tl5 本文为第四届 - 前端职业规划专场讲师 - 远舟的分享 - 《如何做出专家级别的技术与技术产品规划》: 内容概要 大家好,非常高兴能在早早聊的规划专场,和大家分享我对前端做技术与技术产品规划的一些思考和心得。 先来了解下今天要分享的内容概要,先简单认识一下,之后从 为什么 , 怎么做 ,以及举个栗子来讲做 规划的具体思路 。 1. 认识一下 2010 年,毕业后跟随几个老哥创业。 之后由于对前端动效比较感兴趣,所以于 2011 年底加入阿里,成为 alibaba.com 轻骑兵业务的一个切图仔。 12 年,开始参与 alibaba.com 的 DPL 体系建设。 14 年,成为 alibaba.com DPL 负责人并晋升高级前端工程师。 15 年底,开始搞 Fusion Design。 16 年,晋升前端专家。 18 年,离开 B2B 中台团队到了新零售一线盒马 从 0 到 1 搭建门店数字化业务和前端团队 从 0 到 1 建设货架可视化

车牌识别原理

十年热恋 提交于 2020-04-23 03:33:55
车牌识别技术是指对摄像机所拍摄的车辆图像或视频序列,经过机器视觉、图像处理和模式识别等算法处理后自动读取车牌号码、车牌类型、车牌颜色等信息的技术,是人工智能技术中重要的分支。它的硬件基础包括触发设备、摄像设备、照明设备、图像采集设备、识别车牌号码的处理机,其软件核心包括车牌定位、字符分割、字符识别等算法。 目前已经被广泛应用于智能交通系统的各种场合,像公路收费、停车管理、称重系统、交通诱导、交通执法、公路稽查、车辆调度、车辆检测等。对于维护交通安全和城市治安,防止交通堵塞,实现交通全自动化管理有着现实的意义。 车牌识别流程 1图像采集 根据车辆检测方式的不同,图像采集一般分为两种,一种是静态模式下的图像采集,通过车辆触发地感线圈、红外或雷达等装置,给相机一个触发信号,相机在接收到触发信号后会抓拍一张图像,该方法的优点是触发率高,性能稳定,缺点是需要切割地面铺设线圈,施工量大;另一种是视频模式下的图像采集,外部不需要任何触发信号,相机会实时地记录视频流图像,该方法的优点是施工方便,不需要切割地面铺设线圈,也不需要安装车检器等零部件,但其缺点也十分显著,由于算法的极限,该方案的触发率与识别率较之外设触发都要低一些。 2预处理 由于图像质量容易受光照、天气、相机位置等因素的影响,所以在识别车牌之前需要先对相机和图像做一些预处理,以保证得到车牌最清晰的图像

浅谈Flink

本秂侑毒 提交于 2020-04-22 21:10:37
浅谈Flink Apache Flink 是一个面向数据流处理和批量数据处理的分布式的开源计算框架,能够支持流处理和批处理两种应用类型。有着低延迟、Exactly-once 保证,而批处理需要支持高吞吐、高效处理的特点。 Flink 完全支持流处理,也就是说作为流处理看待时,输入数据流是无界的;批处理被作为一种特殊的流处理,只是它的输入数据流被定义为有界的。这与 Spark streaming 不同,Spark streaming 是将流处理视为无限个有界的批处理(microbatch)。 Flink 特点 有状态计算的 Exactly-once 语义。状态是指 flink 能够维护数据在时序上的聚类和聚合,同时它的 checkpoint 机制可以方便快速的做出失败重试; 支持带有事件时间(event time)语义的流处理和窗口处理。事件时间的语义使流计算的结果更加精确,尤其在事件到达无序或者延迟的情况下; 支持高度灵活的窗口(window)操作。支持基于 time、count、session,以及 data-driven 的窗口操作,能很好的对现实环境中的创建的数据进行建模; 轻量的容错处理(fault tolerance)。它使得系统既能保持高的吞吐率又能保证 exactly-once 的一致性。通过轻量的 state snapshots 实现; 支持高吞吐、低延迟

数据挖掘篇——特征工程之特征降维

六月ゝ 毕业季﹏ 提交于 2020-04-22 03:45:28
在业界广泛流传着一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 由此可见,数据和特征是多么的重要,而在数据大多数场景下,数据已经就绪,不同人对于同样的数据处理得到的特征却千差万别,最终得到的建模效果也是高低立现。从数据到特征这就要从特征工程说起了... 0. 特征工程 首先介绍下,特征工程是什么:利用数据领域的相关知识来创建 能够使机器学习算法达到最佳性能的 特征的过程 [1.wiki] 。特征工程是一个较大领域,它通常包括特征构建、特征提取和特征选择这三个子模块,重要性排序:特征构建>特征提取>特征选择。 先来介绍几个术语: 特征构建:从原始数据中构建出特征,有时也称作特征预处理,包括缺失值处理、异常值处理、无量纲化(标准化/归一化)、哑编码等。 特征提取:将原特征转换为一组具有明显物理意义或统计意义或核的新特征。 特征选择:从特征集合中挑选一组最具统计意义的特征子集。 其中本文主要总结下可统一用于特征降维的特征提取和特征选择技术方法,特征构建涉及技术点较少,下回再分解。 1. 特征降维 WHAT :将高维空间的特征通过删减或变换转为低维空间特征 WHY :降低时间/空间复杂度、降低提取特征开销、降噪、提升鲁棒性、增强可解释性、便于可视化; HOW :主要有两种方式,即特征选择和特征提取。 1.1 特征选择(子集筛选): 特征选择方法主要分为三种:

另一种SaaS:感受Mass SaaS的魅力

感情迁移 提交于 2020-04-21 18:58:39
SaaS,软件及服务,在这个时代已经逐渐开始接管我们的职业生活。 2020年的疫情在中国SaaS的发展上推了一把,以钉钉为首的在线教育、用友云为首的远程办公、远程医疗等,都爆发了一股用户增长潮,其展现的盈利潜能也令人足以期待。 然而不仅如此,SaaS这个概念其实与我们非职场的日常生活其实也息息相关。 从很早就已经存在的订阅模式,现在已经成为了用户习以为常、司空见惯的营销手段, 甚至在一定层面上,它已经摆脱了“营销”的名声,逐渐在用户心中成为一种服务式的存在。 不管是曾经大街小巷每天把一杯温热牛奶放到奶箱里的牛奶订阅,还是进入信息时代后爱奇艺的每月会员,都是订阅模式的一种体现。而这种订阅模式,它的内核其实是与SaaS是相同的:一次获客,长久服务。因此,我们暂且提出一个概念:Mass SaaS(大众层面的SaaS)来形容消费者端口的订阅服务。接下来,我们就重点探讨和理解这个“Mass SaaS”。 (一):消费者商业模式 大部分消费者商业模式可以拆分为以下几种: 免费制。 事实上这是大部分网站当前采用的模式。采用免费的方式,意味着网站并不直接向消费者收取报偿,而是通过为商家提供广告宣推服务的形式获取利润。其中,消费者需要付出的只有他们的时间和注意力,这也是当前时代注意力经济的一个特点。这种例子有很多,比如知乎、百度等信息网站、搜索引擎。 付费购买。 这是最直观的一种【付费---获取

K-Means算法的Python实现

做~自己de王妃 提交于 2020-04-21 07:50:31
算法简介 K-Means是一种常用的聚类算法。聚类在机器学习分类中属于无监督学习,在数据集没有标注的情况下,便于对数据进行分群。而K-Means中的K即指将数据集分成K个子集合。 K-Means演示 从以下的动画、视频和计算过程可以较为直观了解算法的计算过程。 动画展示 视频展示 https://youtu.be/BVFG7fd1H30 在线展示 kmeans测试页面 使用场景 由于简单和低维度下高效的特性,K-Means算法被应用在人群分类,图像分段,文本分类以及数据挖掘前数据预处理场景中。 算法理解 计算流程 一下使用 $$ 分隔的内容为 LaTeX 编码的数学表达式,请自行解析。 假设有n个点$$x_{1}$$, $$x_{2}$$, $$x_{3}$$, ..., $$x_{n}$$ 以及子集数量K。 步骤1 取出K个随机向量作为中心点用于初始化 $$C = c_{1},c_{2},...,c_{k}$$ 步骤2 计算每个点$$x_{n}$$与K个中心点的距离,然后将每个点聚集到与之最近的中心点 $$\min_{c_{i} \in C} dist(c_{i},x)$$ dist函数用于实现欧式距离计算。 步骤3 新的聚集出来之后,计算每个聚集的新中心点 $$c_{i} = avg(\sum_{x_{i} \in S_{i}} x_{i})​$$

图像检索(5):基于OpenCV实现小型的图像数据库检索

白昼怎懂夜的黑 提交于 2020-04-20 17:13:46
本文对前面的几篇文章进行个总结,实现一个小型的图像检索应用。 一个小型的图像检索应用可以分为两部分: train,构建图像集的特征数据库。 retrieval,检索,给定图像,从图像库中返回最类似的图像 构建图像数据库的过程如下: 生成图像集的视觉词汇表(Vocabulary) 提取图像集所有图像的sift特征 对得到的sifte特征集合进行聚类,聚类中心就是Vocabulary 对图像集中的图像重新编码表示,可使用BoW或者VLAD,这里选择VLAD. 将图像集中所有图像的VLAD表示组合到一起得到一个VLAD表,这就是查询图像的数据库。 得到图像集的查询数据后,对任一图像查找其在数据库中的最相似图像的流程如下: 提取图像的sift特征 加载Vocabulary,使用VLAD表示图像 在图像数据库中查找与该VLAD最相似的向量 构建图像集的特征数据库的流程通常是offline的,查询的过程则需要是实时的,基本流程参见下图: 由两部分构成:offline的训练过程以及online的检索查找 各个功能模块的实现 下面就使用VLAD表示图像,实现一个小型的图像数据库的检索程序。下面实现需要的功能模块 特征点提取 构建Vocabulary 构建数据库 第一步,特征点的提取 不管是BoW还是VLAD,都是基于图像的局部特征的,本文选择的局部特征是SIFT,使用其扩展RootSift