聚类

秘密武器 | 看AnalyticDB如何强力支撑双十一

做~自己de王妃 提交于 2020-11-25 11:48:39
前言 每年双十一购物狂欢节都是云原生数据仓库AnalyticDB MySQL版(原分析型数据库MySQL版)的一块试金石。今年AnalyticDB除了在阿里数字经济体内进入更多核心交易链路,全力支撑双十一以外,AnalyticDB全面拥抱云原生,构建极致弹性,大幅降低成本,释放技术红利,重磅发布了诸多全新企业级特性,让用户及时拥有极高性价比的云原生数据仓库。 云原生数据仓库AnalyticDB 云原生数据仓库AnalyticDB是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:2003 语法标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库,实现数据价值的在线化。 AnalyticDB全面覆盖数据仓库场景,包括报表查询、在线分析、实时数仓、ETL等,应用范围广。AnalyticDB兼容MySQL和传统数据仓库生态,使用门槛低。 AnalyticDB全力支撑双十一 2020年双十一,AnalyticDB支持了阿里数字经济体内几乎所有BU的业务,承载了集团的菜鸟、新零售供应链、DT数据系列产品、数据银行、生意参谋、人群宝、达摩院店小蜜、AE数据、盒马、天猫营销平台等130多个主要业务。从核心交易链路的高并发在线检索到复杂实时分析应用场景,表现非常稳定。当天各项指标再创新高,AnalyticDB当天的写入TPS峰值到达2

极致友好!不写代码,照样可以训练、测试、使用机器学习模型

瘦欲@ 提交于 2020-11-24 19:30:50
点击上方“ 计算机视觉cv ”即可“进入公众号” 重磅干货第一时间送达 本文转载自机器之心。 igel 是 GitHub 上的一个热门工具,基于 scikit-learn 构建,支持 sklearn 的所有机器学习功能,如回归、分类和聚类。用户无需编写一行代码即可使用机器学习模型,只要有 yaml 或 json 文件,来描述你想做什么即可。 一行代码不用写,就可以训练、测试和使用模型,还有这样的好事? 最近,软件工程师 Nidhal Baccouri 就在 GitHub 上开源了一个这样的机器学习工具——igel,并登上了 GitHub 热榜。目前,该项目 star 量已有 1.9k。 项目地址: https://github.com/nidhaloff/igel 该项目旨在为每一个人(包括技术和非技术人员)提供使用机器学习的便捷方式。 项目作者这样描述创建 igel 的动机:「 有时候我需要一个用来快速创建机器学习原型的工具,不管是进行概念验证还是创建快速 draft 模型。我发现自己经常为写样板代码或思考如何开始而犯愁。于是我决定创建 igel。 」 igel 基于 scikit-learn 构建,支持 sklearn 的所有机器学习功能,如回归、分类和聚类。用户无需编写一行代码即可使用机器学习模型,只要有 yaml 或 json 文件,来描述你想做什么即可。

matlab 练手项目,DBSCAN密度聚类,关于DBSCAN的MATLAB实现的一个案例

六月ゝ 毕业季﹏ 提交于 2020-11-24 12:35:54
绪论 刚刚完成了一个关于DBSCAN的作业,由于刚开始学习MATLAB的使用便用它完成了一个练手任务,有一点想法记录下来。以便于后来重新学习这个方法和记录一些函数,同时也希望能给同学着一点思路。有问题也请留言,会不断改正。 参考博客指路:看了不少,链接挺多,有些忘了,欢迎指出改正 推荐一个基础知识点整理的比较好的博主 万勇’s Blog https://blog.csdn.net/qiu1440528444/article/details/80763420?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160601820019195264744375%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=160601820019195264744375&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2 all baidu_landing_v2~default-1-80763420.first_rank_ecpm_v3_pc_rank_v2&utm_term=matlab+%E5%AE%9E%E7%8E%B0DBSCAN&spm=1018.2118

闭环管理下的银行监控系统改造

落花浮王杯 提交于 2020-11-24 07:58:36
作者介绍 钱立镓, 负责哈尔滨银行监控系统管理和建设,具有丰富的监控系统建设、运维及项目管理经验。参与哈尔滨银行统一监控平台、应用性能监控平台、自动化管理平台等多个运维管理平台架构设计及建设工作。对数据中心监控体系建设、自动化运维有深入研究和应用。 前言 近几年来,随着哈尔滨银行数字化建设发展,银行系统引进了大数据及人工智能技术建设,同时银行监控管理需要整体优化管控策略和监测工具。 立足国内监控政策环境和自身运营实际,我行现提出“监-管-控”闭环监控系统改造策略,从监控系统、一体化运营管理平台、自动化控制三个方面系统推进,以期为银行监控管理的发展提供可供借鉴的发展思路。 大数据及人工智能技术在监控领域的应用使银行系统的监控面临更为重要的机遇和挑战,哈尔滨银行服务主体对业务可用性要求不断提高,需要不断优化现有监控平台及监控策略,需要形成监控标准化体系。因此,监控管理亟待更新监控管理办法,制定相适应的管控策略。 一、哈尔滨银行监控管理系统升级改造的背景 我行监控系统面临的主要问题有: 银行监控系统整体来看,普遍存在不同监控平台监控策略、告警事件、数据归集分散的问题; 监控工具方面,监控控工具展示的更多的是面向专家和技术人员使用的监控视图,对ECC一线整体监控可视化需求的实现不足; 业务监控方面,自动化巡检及处置流程覆盖面积小,覆盖场景单一,缺乏有效的自动化开发管理流程。 由此

决策树(R语言)

余生颓废 提交于 2020-11-23 22:48:05
决策树是有监督学习算法中的一种。基于属性做一系列的决策,每次决策要么进入下一级决策,要么生成最终结果。决策树可以作为集成算法中的基分类器,并且有最为广泛的应用。 决策树算法 要想理解决策树的工作原理,首先需要了解决策树的层次结构。决策树由结点与有向边组成,其中,结点分为如下三种: 根结点 :无入边,但有零条或多条出边 内部结点 :有一条入边和多条出边 叶节点 :有一条入边,无出边 每个叶节点都有一个类标号,根节点和内部结点包含属性测试条件,每个根节点和内部结点都对应一次条件判断,用来分开有不同特性的记录。对一条记录进行判断时,从根结点开始,根据判断进入相应分支,只到叶节点,叶节点的类别即为分类结果。比如,根据历史贷款记录预测贷款申请者是否会逾期,是否有房和婚姻状况作为属性,是否逾期作为类标号。历史数据如下: 序号 有房 婚姻状况 是否逾期 1 是 单身 否 2 否 已婚 否 3 否 单身 是 4 是 已婚 否 5 否 离异 是 6 否 已婚 否 7 是 离异 否 8 否 单身 是 9 否 已婚 否 根据历史贷款记录,可构造如下决策树: 当决策树构造好后,对未标记的记录进行分类就非常容易了。如使用以及构造好的决策树,对如下序号8这个人进行预测,可以知道,最终停在了未逾期这个节点。 序号 有房 婚姻状况 是否逾期 8 是 离异 ? Hunt算法 是常用的用来建立决策树的算法

[AutoCars(一)]自动驾驶汽车概述(中)

和自甴很熟 提交于 2020-11-22 17:30:20
本文将介绍自动驾驶汽车感知系统中的重要方法,包括定位器(或定位)、离线障碍物地图测绘、道路地图测绘、移动障碍物跟踪、交通信号检测与识别。 1.定位 定位模块负责估计自动驾驶汽车相对于地图或道路的姿态(位置和方向)。大多数通用的定位子系统都基于GPS。但是,总的来说这些系统不能用于城市中的自动驾驶汽车,因为在有遮挡的区域不能确保有 GPS 信号,比如树下、城市峡谷(大型建筑之间的区域)、隧道。 文献中已经提出了多种不依赖 GPS 的定位方法。它们主要可分为三类: 基于 LIDAR 的方法、基于摄像头的方法、基于 LIDAR 与摄像头的方法 。基于 LIDAR 的定位方法仅依靠 LIDAR 传感器,这种方法测量准确且易于处理,但成本较高;基于摄像头的定位方法很便宜廉价,但通常没那么精确可靠;在典型的基于 LIDAR 与摄像头的定位方法中,LIDAR 数据仅被用于构建地图,估计自动驾驶汽车相对于地图的位置则会使用相机数据,这能够降低成本。 1) 基于 LIDAR 的定位 光学雷达(Light Detection and Ranging,LiDAR)是一种光学遥感技术。首先它通过向目标物体发射一束激光,然后根据 接收-反射 的时间间隔确定目标物体的实际距离;再根据距离及激光发射的角度,通过几何变化推导出物体的位置信息。 LiDAR系统一般分成激光发射器,扫描与光学部件和感光部件。其中

推荐机制 协同过滤和基于内容推荐的区别

时光毁灭记忆、已成空白 提交于 2020-11-22 01:26:53
参考ibm文章 https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html 该系列分为三部分 第 2 部分: 深入推荐引擎相关算法 - 协同过滤 第 3 部分: 深入推荐引擎相关算法 - 聚类 “探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助用户清楚的了解和快速构建适合自己的推荐引擎。 信息发现 如今已经进入了一个数据爆炸的时代,随着 Web 2.0 的发展, Web 已经变成数据分享的平台,那么,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难。 在这样的情形下,搜索引擎(Google,Bing,百度等等)成为大家快速找到目标信息的最好途径。在用户对自己需求相对明确的时候,用搜索引擎很方便的通过关键字搜索很快的找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求,那是因为在很多情况下,用户其实并不明确自己的需要

推荐系统| 基于人口统计学| 基于内容

旧街凉风 提交于 2020-11-22 01:05:36
常用推荐算法分类 实时和离线; 是否个性化推荐;基于统计的推荐; 个性化推荐的原则:如可以基于相似度去划分、基于已有的知识去推荐、基于模型的推荐(去学习这个推荐的模型); 按数据源划分:用户、物品、用户行为数据即它们俩之间的关系; 基于人口统计学的推荐(基于用户)与用户画像 基于内容的推荐(基于物品)与特征工程 基于协同过滤的推荐(用户行为数据) 1. 基于人口统计学的推荐 根据用户特质找到他的邻居;用户基本的信息; 基于人口统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户 对于没有明确含义的用户信息(比如登录时间、地域等上下文信息),可以通过聚类等手段,给用户打上分类标签 对于特定标签的用户,又可以根据预设的规则(知识)或者模型,推荐出对应的物品 用户信息标签化的过程一般又称为 用户画像(User Profiling) 用户画像 用户画像(User Profile)就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式; 用户信息不好收集,所以有时候可能不准确;可收集他的行为数据; 用户画像为企业提供了足够的信息基础

高效必备!保姆级教程速来领取!

删除回忆录丶 提交于 2020-11-21 04:24:55
Hello!大家好,这里是 SPSSAU 。 今年由于疫情原因,同学们早早离开了校园,也度过了在校时间最短的一学期。如今暑假生活已经过半,有的同学更是已经开始返校报到,为新学期做准备。 随着新学期的开始,大家的论文任务是不是也该提上日程了呢?贴心的SPSSAU,已为大家整理好一份 保姆级教程 。 如果你错过了之前的各种干货分享,那么这次一定记得 收藏、点赞 。 「SPSSAU操作技巧」 新手指南 | 数据格式 | 加权数据 | 变量处理 数据管理 | 数据异常 「统计入门」 数据准备 | 方法选择 | 分析思路 | 图表选择 「常用方法」 相关分析 | 线性回归 | 因子分析 | 卡方检验 t检验 | 方差分析 | 非参数检验 二元logit | 多分类logit | 有序logit 「问卷分析」 问卷设计 | 信度分析 | 效度分析 聚类分析 | 验证性因子分析 | 结构方程模型 调节作用 | 中介作用 | 多选题 | 排序题 「医学/实验研究」 卡方检验 | RSR秩和比 | 重复测量方差 ROC曲线 | COX回归 | 一致性检验 「权重计算」 权重方法选择 | 主成分 | AHP | 熵值法 熵权topsis | 耦合协调度 「常见问题」 三线表 | 哑变量 | 正态性 区分 方差分析、T检验、卡方检验 没有盘点到的方法及问题,都可通过SPSSAU提供的帮助手册

sklearn——数据集调用及应用

给你一囗甜甜゛ 提交于 2020-11-21 04:11:32
忙了许久,总算是又想起这边还没写完呢。   那今天就写写sklearn库的一部分简单内容吧,包括数据集调用,聚类,轮廓系数等等。 自带数据集API 数据集函数 中文翻译 任务类型 数据规模 load_boston Boston房屋价格 回归 506*13 fetch_california_housing 加州住房 回归 20640*9 load_diabetes 糖尿病 回归 442*10 load_digits 手写字 分类 1797*64 load_breast_cancer 乳腺癌 分类、聚类 (357+212)*30 load_iris 鸢尾花 分类、聚类 (50*3)*4 load_wine 葡萄酒 分类 (59+71+48)*13 load_linnerud 体能训练 多分类 20 提取信息关键字: DESCR:数据集的描述信息 data:内部数据 feature_names:数据字段名 target:数据标签 target_names:标签字段名(回归数据集无此项) 开始提取   以load_iris为例。 # 导入是必须的 from sklearn.datasets import load_iris iris = load_iris() iris # iris的所有信息,包括数据集、标签集、各字段名等   <font size=2> 这个输出太长太乱,而且后边也有