聚类

(数据科学学习手札79)基于geopandas的空间数据分析——深入浅出分层设色

丶灬走出姿态 提交于 2020-08-16 16:40:29
本文对应代码和数据已上传至我的 Github 仓库 https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   通过前面的文章,我们已经对 geopandas 中的 数据结构 、 坐标参考系 、 文件IO 以及 基础可视化 有了较为深入的学习,其中在 基础可视化 那篇文章中我们提到了分层设色地图,可以对与多边形关联的数值属性进行分层,并分别映射不同的填充颜色,但只是开了个头举了个简单的例子,实际数据可视化过程中的分层设色有一套策略方法。   作为 基于geopandas的空间数据分析 系列文章的第五篇,通过本文你将会学习到基于 geopandas 和机器学习的 分层设色 。 2 基于geopandas的分层设色    地区分布图 ( Choropleth maps ,又叫面量图)作为可能是最常见的一种地理可视化方法,其核心是对某个与矢量面关联的数值序列进行有意义的分层,并为这些分层选择合适美观的色彩,最后完成对地图的着色,优点是美观且直观,即使对地理信息一窍不通的人,也能通过颜色区分出不同面之间的同质性与异质性: 图1   但同样地,如果对数据分层采取的方法有失严谨没有很好的遵循数据特点,会很容易让看到图的人产生出不正确的判断,下面我们按照先分层,后设色的顺序进行介绍。 2.1 基于mapclassify的数据分层  

关于图挖掘任务的一点点思考

佐手、 提交于 2020-08-16 13:58:10
图网络作为一种图结构,在关系网等网络数据中应用广泛。但是常用的图挖掘任务不外乎下面这些: 一、点任务 (1)节点重要性,中心性等排序 (2)节点分类 (3)节点聚类 (4)节点识别 (5)节点推荐 (7)节点填充 (8)节点属性预测 (9)孤立特殊点识别 二、点间任务 (1)存在边预测 (2)边属性查询 (3)边属性填充 (3)点之间路径计算 (4)点之间亲密程度 (5)边属性预测 (6)点间推荐 三、点和边间任务 (1)点属性预测边属性 (2)边属性预测点属性 (3)点的出度边等属性计算 (3)介度等计算 四、整体图任务 (1)子团伙挖掘 (2)整体图属性计算 五、网络间任务 (1)网络间迁移学习 (2)网络间相似度 (3)网络间最佳融合计算 六、网络解决向量,矩阵信号多模态融合 (1)建立网络解决自然语言处理任务 (2)建立网络解决视频信号任务 以上是自己对图挖掘任务的一点点总结。在这些任务上匹配各个行业衍生了许许多多的模型,包括传统规则、规则和机器学习融合、GNN、BertGraph 来源: oschina 链接: https://my.oschina.net/u/4410837/blog/4497553

工业数据分析技术与实战之数据分析的挑战——昆仑数据田春华培训听课记录

天大地大妈咪最大 提交于 2020-08-16 02:56:03
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。 视频链接 过去我们经常提非结构化数据,其实结构化数据也是现在数据分析的一大方向。比如时序结构,工业上大量的传感器、物联网数据。再就是移动互联网的时空数据,一些观测数据。还有一些序列数据,它跟时序数据不一样,可能并不是连续的,比如一些交易数据,今天取钱,明天去哪儿消费,这些在一些欺诈识别里面非常重要,特别是网络入侵,你做一系列的事件,通常可能导致某个事件的发生,通过一些事件序列,通常可以发现行为异常等。另外一些是Networks网络数据,比如社交网络数据,还有一些合作数据,比如谁和谁通常一起发论文等等。结构化数据也是一个需要深入研究的领域。 以工业为例。工业有什么特点呢,首先是先验知识。工业里面,先验知识比较多,不像我们在互联网里面做推荐,做用户画像,我对用户的一些了解,包括人的认知都是非常宏观。工业里面的都非常微观,比如一些动态方程,一些运行机理,这些知识如果用统计学的联合概率分布等来刻画还是不够充分。而且工业系统通常是一个工控系统

武汉约100所中小学将试点人工智能课,现面向社会遴选教材

自闭症网瘾萝莉.ら 提交于 2020-08-15 12:25:14
人工智能,也要从娃娃抓起? 机器之心报道,编辑:张倩、杜伟。 据《长江日报》等媒体报道,近日,武汉市教育局发布通告,2020 年秋季,武汉将在部分中小学试点开设人工智能课程,目前正在面向社会遴选中小学人工智能课程教材。 报道称,下一阶段,武汉市教育局还将请各区教育局申报试点学校, 初步计划设约 100 所试点中小学 ,还将邀请专家进行教师培训。目前,全国各地的多所中小学都已经开始尝试开设人工智能兴趣类中小学课程,但大规模开展的地区并不多。 武汉市教育局官方文件显示,此次大规模试点中小学人工智能课其实是「智慧教育示范区」建设项目的一部分。 2019 年 1 月,教育部办公厅决定遴选一批地方积极、条件具备的地区,开展「智慧教育示范区」建设,北京市东城区、山西省运城市、上海市闵行区、湖北省武汉市、湖南省长沙市、广东省广州市、四川省成都市武侯区和河北省雄安新区被选为首批 8 个「智慧教育示范区」。 2019 年 9 月,在「智慧教育示范区」创建项目启动会上,各示范区根据自身情况和特点提出了具体的实施方案和建设重点。其中,武汉市提出要「开展人工智能与教育教学融合实践, 遴选人工智能教材,实现全市中小学 100% 开设人工智能课程 ;借助高校科研力量、企业科研力量、一线教师教研员等,推进人工智能与教学融合研究,形成学科典型案例,培养人工智能名师,培育人工智能基地学校。」 此外

2019研究生数学建模(汽车工况建立)--形成报告及代码

邮差的信 提交于 2020-08-15 05:36:50
比赛开始的时间与我所要面临的开题有一定的时间冲突, 因此选择一个最为简单(个人认为), 比较容易快点出结果的题目--汽车工况的建立. 主要的工作: 进行汽车工况的聚类划分(本文主要以此为主) 本文的结构为:题目要求-基本报告-实现代码 题目要求: 汽车行驶工况 (Driving Cycle)又称车辆测试循环,是描述汽车行驶的速度-时间曲线(如图1、2,一般总时间在1800秒以内,但没有限制标准,图1总时间为1180秒,图2总时间为1800秒),体现汽车道路行驶的运动学特征,是汽车行业的一项重要的、共性基础技术,是车辆能耗/排放测试方法和限值标准的基础,也是汽车各项性能指标标定优化时的主要基准。目前,欧、美、日等汽车发达国家,均采用适应于各自的汽车行驶工况标准进行车辆性能标定优化和能耗/排放认证。 本世纪初,我国直接采用欧洲的NEDC行驶工况(如图1)对汽车产品能耗/排放的认证,有效促进了汽车节能减排和技术的发展。近年来,随着汽车保有量的快速增长,我国道路交通状况发生很大变化,政府、企业和民众日渐发现以NEDC工况为基准所优化标定的汽车,实际油耗与法规认证结果偏差越来越大,影响了政府的公信力(譬如对某型号汽车,该车标注的工信部油耗6.5升/100公里,用户体验实际油耗可能是8.5-10升/100公里)。另外,欧洲在多年的实践中也发现NEDC工况的诸多不足,转而采用世界轻型车测试循环

刷新五项SOTA,百度ActBERT:基于动作和局部物体的视频文本特征学习模型

孤街醉人 提交于 2020-08-14 15:42:14
全球计算机视觉顶会 CVPR 2020 上,百度共计有 22 篇论文被接收。这篇 Oral 论文中,百度提出了 ActBERT,该模型可以学习叙述性视频进行无监督视频文本关系,并提出纠缠编码器对局部区域、全局动作与语言文字进行编码。最终在 5 项相关测评任务上取得了 SOTA 结果。 机器之心发布,机器之心编辑部。 ActBERT 在下游视频和语言任务上,即文本视频片段检索、视频描述生成、视频问答、动作步骤定位等任务上明显优于其他技术,展示了其在视频文本表示方面的学习能力。 论文:《ActBERT: Learning Global-Local Video-Text Representations》 论文链接: http:// openaccess.thecvf.com/c ontent_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf 现有利用 BERT 训练方式进行视频语言建模一般通过量化视频帧特征的方式,通过聚类离散化将视觉特征转化为视觉单词。但是,详细的局部信息,例如,互动对象,在聚类过程中可能会丢失,防止模型进一步发现细粒度的视频和文字对应关系。本文提出 ActBERT 从配对视频序列中挖掘全局和局部视觉线索和文字描述

用户画像简介

淺唱寂寞╮ 提交于 2020-08-14 13:07:57
参考文章: 推荐系统——用户画像 1. 用户画像 1.1 用户画像定义 用户画像:也叫用户信息标签化、客户标签;根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。从电商的角度看,根据你在电商网站上所填的信息和你的行为,可以用一些标签把你描绘出来,描述你的标签就是用户画像。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。 用户画像不是推荐系统的目的,而是在构建推荐系统的过程中产生的一个关键环节的副产品,包括但不仅限于用户的注册资料、标签,各种深度学习得到的 embedding 向量。 用户画像是对现实世界中用户的数学建模,主要包括两方面: 描述用户,即用户在业务信息维度中的信息投射 通过分析挖掘用户尽可能多的数据信息,对用户信息数据进行抽象,提炼,转化。 用户画像关键元素: 维度、量化 按照对用户向量化的手段来分,用户画像构建方法分成三类: 第一类就是原始数据。直接使用原始数据作为用户画像的内容,如注册资料,行为轨迹等信息,除了数据清洗等工作,数据本身并没有做任何抽象和归纳。这种方法实现简单,但通常对于用户冷启动等场景非常有用。 第二类就是统计分析。方法就是通过大量数据进行统计分析,这是最常见的用户画像数据,常见的兴趣标签,就是这一类。 第三类就是机器学习。通过机器学习,可以得出人类无法直观理解的稠密向量

get这款工具,不会机器学习也能轻松搞定深度分析

北城以北 提交于 2020-08-14 08:20:24
机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。通过计算机对数据的处理和对算法的运用,实现对业务场景的深度分析,帮助人们更好的做决策。永洪深度分析模块是将机器学习算法封装成节点,用户通过拖拽的方式从而便捷的应用机器学习算法。 如何使用深度分析模块?首先需要安装永洪Desktop,里面会带有深度分析功能,目前可以免费试用3个月。其次根据需要安装R服务环境或Python服务环境,也可以两个都安装。如果不会安装可以查看在线帮助或到官网社区中的产品问答中看相关说明。再次,安装好后,打开Desktop,选择【管理系统】-【系统设置】-【R计算配置/Python计算配置】,如下图1所示。填写服务器地址和端口号,点击测试连接,如果连接正确,右上角会弹出测试成功。最后点击保存连接,至此,深度分析功能就可以使用了。 图1 想要对业务进行深度分析,就需要对机器学习的流程有一定的了解,通常的流程共有8步,如下图2。在永洪的产品中提供了几个常用的深度分析的场景,大家可以打开看看,也可以复用使用。 图2 第一步,问题分析,就是要确定对哪个问题进行分析。例如,对于银行业企业,通常会进行信用卡反欺诈分析、营销策略分析等。对于零售行业,通常会进行销售预测、用户画像分析等。对于政府,可以进行交通预测

多模态注意力机制+多模态数据,完全实现端到端课堂活动检测|ICASSP2020

梦想与她 提交于 2020-08-14 06:32:12
     本文解读的是 ICASSP 2020 论文《MULTIMODAL LEARNING FOR CLASSROOM ACTIVITY DETECTION 》,作 者来自好未来 。    作 者 | 李 航    编辑 | 丛 末      论文地址:https://arxiv.org/abs/1910.13799    1    研究背景   在教育领域,课堂活动检测(Class Activity Detection)一直是一个热门话题。自1980年开始就不断有人在这方面进行研究,之前已有研究证明,通过分析学生和老师在课堂中的行为,可以使人更容易注意到并纠正老师和学生在上课时犯的错误。通过这种方式,可以同时提升老师的教学技能和学生的学习效率。   目前大多数教学质量检测的方法都是基于高质量、细粒度的课堂活动记录来实现的,这些记录通常需要包括老师和学生的说话内容以及对应时间等信息。然而,除非同时让老师和学生都各自佩戴上独立的收声设备,如麦克风,否则课堂中老师和学生各自单独的活动记录是非常难以获取的。而实际上,大部分现有教室都只有单独的一个收声设备,只能获取课堂进行中包含多人说话混合的音频,这就使得相应的研究很难进行。   因此,基于上述背景,我们的研究团队根据实际课堂环境产出的多种模态的数据,使用了多模态注意力机制将多种模态的数据进行结合

变分深度嵌入(Variational Deep Embedding, VaDE)

老子叫甜甜 提交于 2020-08-14 05:51:38
变分深度嵌入(Variational Deep Embedding, VaDE) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博文主要是对论文“ Variational Deep Embedding: An Unsupervised and Generative Approach to Clustering”的整理总结,阅读这篇博文的前提条件是:了解 高斯混合模型用于聚类的算法 ,了解 变分推断与变分自编码器 。在知道高斯混合模型(GMM)与变分自编码器(VAE)之后,VaDE实际上是将这两者结合起来的一个产物。与VAE相比,VaDE在公式推导中多了一个变量c。与GMM相比,变量c就相当于是GMM中的隐变量z,而隐层得到的特征z相当于原来GMM中的数据x。下面主要介绍VaDE模型的变分下界(损失函数)L(x)的数学推导过程。推导过程用到了概率论与数理统计的相关知识。 1. 前提公式 2. VaDE损失函数公式推导过程 最终的聚类结果是由q(c|x)得到的,q(c|x)相当于GMM中的隐变量的后验概率γ。 下面将损失函数拆成5项,并一项一项进行求解。 3. VaDE算法总体流程 4. 参考文献 [1] 聚类——GMM - 凯鲁嘎吉 - 博客园 [2] 变分推断与变分自编码器 - 凯鲁嘎吉 - 博客园 [3] Jiang Z ,