聚类

机器学习 --基础入门介绍 他来啦!!!

只愿长相守 提交于 2020-08-08 12:15:49
行业热词解释 机器学习基本术语 假如我们有一组天气数据,是来自全世界不同国家和地区的每日天气,内容包括最高温度、最低温度、平均湿度、风速之类的相关数据,例如数据的一部分是这样的: 城市 最高温度 最低温度 相对湿度 某时刻风速 A市 36℃ 28℃ 58% 16.7km/h B市 28℃ 17℃ 86% / C市 34℃ 29℃ 39% 20.4km/h 在这组数据中,我们将称A市、B市、C市等市以及其情况的总和称为 数据集 (data set)。表格中的每一行,也就是某城市和它的情况被称为一个 样例 (sample/instance)。表格中的每一列(不包括城市),例如最高温度、最低温度,被称为 特征 (feature/attribute),而每一列中的具体数值,例如36℃ 、28℃,被称为 属性值 (attribute value)。数据中也可能会有 缺失数据 (missing data),例如B市的某时刻风速,我们会将它视作缺失数据。 如果我们想预测城市的天气,例如是晴朗还是阴雨天,这些数据是不够的,除了特征以外,我们还需要每个城市的具体天气情况,也就是通常语境下的结果。在机器学习中,它会被称为 标签 (label),用于标记数据。值得注意的是,数据集中不一定包含标签信息,而这种区别会引起方法上的差别。我们可以给上述示例加上一组标签: 城市 天气 A市 晴朗 B市 阴雨 C市

基于文本描述的事务聚类

末鹿安然 提交于 2020-08-08 10:25:24
作者|GUEST 编译|VK 来源|Analytics Vidhya 介绍 我们生活在数字技术的时代。你上次走进一家没有数字交易的商店是什么时候? 这些数字交易技术已经迅速成为我们日常生活的一个关键部分。 不仅仅是在个人层面,这些数字技术是每个金融机构的核心。通过多种可能的选择(如网上银行、ATM、信用卡或借记卡、UPI、POS机等),在后台运行可靠的系统,支付交易或资金转账已经变得非常顺利。 我们会为每个事务生成一个适当的描述: 在本文中,我们将使用聚类(一种流行的机器学习算法)讨论一个金融机构为其客户群定制产品的真实用例。 本案例研究背后的动机 作为一家金融机构,根据现有客户的不同兴趣,为他们提供定制化的服务,这一点总是很重要的。对于任何金融机构来说,捕捉客户的意图是一个重大挑战。 Twitter、WhatsApp、Facebook等社交媒体平台已成为分析客户兴趣和偏好的主要信息来源。 金融机构从第三方获取数据往往会产生巨大的成本。即便如此,将一个社交媒体帐户映射到一个独特的客户也变得非常困难。 那么我们如何解决这个问题呢? 上述问题的部分解决方案可以通过使用机构提供的内部交易数据来解决。 我们可以根据事务描述消息将客户执行的事务分为不同的类别。 此方法可用于标记交易是否针对食品、运动、服装、账单付款、家居等进行。如果客户的大部分交易都出现在特定类别中,则我们可以更好地估计他

2019研究生数学建模(汽车工况建立)--形成报告及代码

对着背影说爱祢 提交于 2020-08-08 10:05:27
比赛开始的时间与我所要面临的开题有一定的时间冲突, 因此选择一个最为简单(个人认为), 比较容易快点出结果的题目--汽车工况的建立. 主要的工作: 进行汽车工况的聚类划分(本文主要以此为主) 本文的结构为:题目要求-基本报告-实现代码 题目要求: 汽车行驶工况 (Driving Cycle)又称车辆测试循环,是描述汽车行驶的速度-时间曲线(如图1、2,一般总时间在1800秒以内,但没有限制标准,图1总时间为1180秒,图2总时间为1800秒),体现汽车道路行驶的运动学特征,是汽车行业的一项重要的、共性基础技术,是车辆能耗/排放测试方法和限值标准的基础,也是汽车各项性能指标标定优化时的主要基准。目前,欧、美、日等汽车发达国家,均采用适应于各自的汽车行驶工况标准进行车辆性能标定优化和能耗/排放认证。 本世纪初,我国直接采用欧洲的NEDC行驶工况(如图1)对汽车产品能耗/排放的认证,有效促进了汽车节能减排和技术的发展。近年来,随着汽车保有量的快速增长,我国道路交通状况发生很大变化,政府、企业和民众日渐发现以NEDC工况为基准所优化标定的汽车,实际油耗与法规认证结果偏差越来越大,影响了政府的公信力(譬如对某型号汽车,该车标注的工信部油耗6.5升/100公里,用户体验实际油耗可能是8.5-10升/100公里)。另外,欧洲在多年的实践中也发现NEDC工况的诸多不足,转而采用世界轻型车测试循环

基于点云的机器人抓取识别综述

左心房为你撑大大i 提交于 2020-08-08 08:45:29
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 机器人作为面向未来的智能制造重点技术,其具有可控性强、灵活性高以及配置柔性等优势,被广泛的应用于零件加工、协同搬运、物体抓取与部件装配等领域,如图1-1所示。然而,传统机器人系统大多都是在结构化环境中,通过离线编程的方式进行单一重复作业,已经无法满足人们在生产与生活中日益提升的智能化需求。随着计算机技术与传感器技术的不断发展,我们期望构建出拥有更加灵敏的感知系统与更加智慧的决策能力的智能化机器人系统。 图1-1 机器人的应用领域 图1-2 机器人抓取的操作流程与步骤 机器人抓取与放置是智能化机器人系统的集中体现,也是生产与生活中十分重要的环节,近几年来在工业界与学术界得到了深入而广泛的研究。具体的机器人抓取可以分为视觉感知部分与机器人抓取操作部分。视觉感知部分又包含:模型与场景表征、目标识别与定位这两个步骤;而机器人抓取操作部分则包含:系统标定、运动控制与抓取规划等步骤,如图1-2所示。这其中,机器人通过视觉传感器感知环境并实现对目标物体的识别与定位,也就是视觉感知部分,是十分重要的环节,其直接决定了后续机器人的抓取精度。 图1-3 二维图像的部分缺陷 受益于计算机算力的不断提高以及传感器成像水平的高速发展,目前针对结构化环境或者半结构化环境中,基于二维图像的机器人平面单目标物体的抓取技术已经趋于成熟

2019研究生数学建模(汽车工况建立)--形成报告及代码

北城以北 提交于 2020-08-08 07:40:55
比赛开始的时间与我所要面临的开题有一定的时间冲突, 因此选择一个最为简单(个人认为), 比较容易快点出结果的题目--汽车工况的建立. 主要的工作: 进行汽车工况的聚类划分(本文主要以此为主) 本文的结构为:题目要求-基本报告-实现代码 题目要求: 汽车行驶工况 (Driving Cycle)又称车辆测试循环,是描述汽车行驶的速度-时间曲线(如图1、2,一般总时间在1800秒以内,但没有限制标准,图1总时间为1180秒,图2总时间为1800秒),体现汽车道路行驶的运动学特征,是汽车行业的一项重要的、共性基础技术,是车辆能耗/排放测试方法和限值标准的基础,也是汽车各项性能指标标定优化时的主要基准。目前,欧、美、日等汽车发达国家,均采用适应于各自的汽车行驶工况标准进行车辆性能标定优化和能耗/排放认证。 本世纪初,我国直接采用欧洲的NEDC行驶工况(如图1)对汽车产品能耗/排放的认证,有效促进了汽车节能减排和技术的发展。近年来,随着汽车保有量的快速增长,我国道路交通状况发生很大变化,政府、企业和民众日渐发现以NEDC工况为基准所优化标定的汽车,实际油耗与法规认证结果偏差越来越大,影响了政府的公信力(譬如对某型号汽车,该车标注的工信部油耗6.5升/100公里,用户体验实际油耗可能是8.5-10升/100公里)。另外,欧洲在多年的实践中也发现NEDC工况的诸多不足,转而采用世界轻型车测试循环

沃尔玛的产品知识图谱

若如初见. 提交于 2020-08-08 07:25:17
作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍 电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴(销售商、供应商、品牌)提供的数据往往不完整,有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范(一种发送产品数据的约定格式),但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外,互联网上还有许多非结构化数据,如产品手册、产品评论、博客、社交媒体网站等。 沃尔玛正致力于构建一个零售图谱(Retail Graph),捕捉有关产品及其相关实体的知识,以帮助我们的客户更好地发现产品。它是一个产品知识图谱,可以在零售环境中回答有关产品和相关知识的问题,可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。 沃尔玛的零售图谱是什么 零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象,例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种:抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题,而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别,替代品和补充品(附件、兼容产品等)。它还试图将抽象概念

up主有救了!油管添加智能回复功能,全球首个基于字节的评论AI

爱⌒轻易说出口 提交于 2020-08-08 00:51:58
      大数据文摘出品    编译:李雷    谷歌的智能回复SmartReply自推出至今已有4年多了 ,在此期间,随着这项技术在Gmail和安卓短信软件上的应用,它已拥有了大量的用户,而通过Android Wear智能平台这项功能将可以扩展到了更多设备。   该功能将植入YouTube Studio中,也就是 博主们用来管理自己的YouTube形象,查看统计数据,推广频道并吸引粉丝的全方位的控制台 。   在YouTube Studio的评论部分,博主们可以过滤、查看和回复来自各个频道的评论。    对于拥有大量粉丝的博主而言,回复评论可能非常耗时 ,而这正是SmartReply的强项。   开发人员现在可以使用SmartReply在Google Play控制台上回复评论,并且可以用MLKit(机器学习工具包)和TFLite(针对移动和嵌入式设备的软件库)中提供的API来开发自己的回复工具。每次应用SmartReply,需要针对具体的任务要求自定义配置,因此在建模和服务方面都面临着独特的挑战。   在这篇文章里,我们很高兴分享针对YouTube的SmartReply,这是在YouTube Studio中实现的,它可以 帮助油管博主们更轻松地与粉丝互动 。该模型通过能高效计算的膨胀型自注意力网络来学习评论和各种回复,而且是第一个跨语言和基于字符字节的SmartReply模型。

YOLOv4目标检测实战:中国交通标志识别

[亡魂溺海] 提交于 2020-08-07 21:35:17
课程目标:掌握使用YOLOv4进行TT100K数据集上的中国交通标志识别 课程链接: https://edu.51cto.com/course/23592.html 课程演示环境:Ubuntu 需要学习Windows系统YOLOv4的同学请前往《Windows版YOLOv4目标检测实战:中国交通标志识别》 https://edu.51cto.com/course/23591.html 在自动驾驶驾驶中,交通标志识别是一项重要的任务。本项目以TT100K中国交通标志数据集为训练对象,采用YOLOv4目标检测方法实现实时45个类别的交通标志识别。 本课程的YOLOv4使用AlexyAB/darknet,在Ubuntu系统上做交通标志识别的项目演示。具体项目过程包括:安装YOLOv4、TT100K数据集格式转换为PASCAL VOC格式、训练集和测试集自动划分、修改配置文件、训练网络模型、测试训练出的网络模型、性能统计(mAP计算和画出PR曲线)和先验框聚类分析。 来源: oschina 链接: https://my.oschina.net/u/4312696/blog/4308971

人工智能中小样本问题相关的系列模型演变及学习笔记(四):知识蒸馏、增量学习

半城伤御伤魂 提交于 2020-08-07 13:21:53
【说在前面】本人博客新手一枚,象牙塔的老白,职业场的小白。以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] 【再啰嗦一下】本文衔接上两个随笔: 人工智能中小样本问题相关的系列模型演变及学习笔记(一):元学习、小样本学习 【再啰嗦一下】本文衔接上两个随笔: 人工智能中小样本问题相关的系列模型演变及学习笔记(二):生成对抗网络 GAN 【再啰嗦一下】本文衔接上两个随笔: 人工智能中小样本问题相关的系列模型演变及学习笔记(三):迁移学习 一、知识蒸馏综述 知识蒸馏被广泛的用于模型压缩和迁移学习当中。 本文主要参考:模型压缩中知识蒸馏技术原理及其发展现状和展望 1. 基本概念 知识蒸馏可以将一个网络的知识转移到另一个网络,两个网络可以是同构或者异构。做法是先训练一个teacher网络,然后使用这个teacher网络的输出和数据的真实标签去训练student网络。 可以用来将网络从大网络转化成一个小网络,并保留接近于大网络的性能。 可以将多个网络的学到的知识转移到一个网络中,使得单个网络的性能接近emsemble的结果。 2. 知识蒸馏的主要算法 知识蒸馏是对模型的能力进行迁移,根据迁移的方法不同可以简单分为基于目标驱动的算法、基于特征匹配的算法两个大的方向。 2.1 知识蒸馏基本框架 Hinton最早在文章“Distilling the knowledge in a

EM算法原理总结

纵然是瞬间 提交于 2020-08-06 20:10:41
    EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。 1. EM算法要解决的问题     我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。     但是在一些情况下,我们得到的观察数据有未观察到的隐含数据,此时我们未知的有隐含数据和模型参数,因而无法直接用极大化对数似然函数得到模型分布的参数。怎么办呢?这就是EM算法可以派上用场的地方了。     EM算法解决这个的思路是使用启发式的迭代方法,既然我们无法直接求出模型分布参数,那么我们可以先猜想隐含数据(EM算法的E步),接着基于观察数据和猜测的隐含数据一起来极大化对数似然,求解我们的模型参数(EM算法的M步)。由于我们之前的隐藏数据是猜测的,所以此时得到的模型参数一般还不是我们想要的结果。不过没关系,我们基于当前得到的模型参数,继续猜测隐含数据(EM算法的E步),然后继续极大化对数似然,求解我们的模型参数(EM算法的M步)。以此类推,不断的迭代下去,直到模型分布参数基本无变化,算法收敛,找到合适的模型参数。     从上面的描述可以看出,EM算法是迭代求解最大值的算法,同时算法在每一次迭代时分为两步