tianchi

幸福感可视化

余生颓废 提交于 2021-02-19 04:34:44
前言 pyecharts 官方文档排版更新,同时也新增了一些例子,小编找了一份数据来练练手,数据来自阿里天池: https://tianchi.aliyun.com/competition/entrance/231702/information 这是阿里天池的一个新人赛,题目是预测分析,但不是我们此次目的,我们需要下载我们需要的数据: happiness_index.xls 为字段说明,取值说明。 happiness_train_arre.csv 为我们的数据。 数据清洗 我们先导入库,查看数据: 查看缺失值,数据信息: 数据清洗,我们没有全部清洗,只选取了几个和常理不太一样的字段,具体清洗字段如下,这是我 jupyter notebook 的目录: 清洗这几个字段的代码: 清洗好后,我们查看一下我们的数据: 可视化 我们现在就可以开始可视化了,由于此次就是练手,我们首先选择了这么几种图表: 饼图 热力地图 折线图 圆环图 柱状图 散点图 箱型图 雷达图 pyecharts 提供了 10 多种主题,我们没有使用默认的主题。 饼图 主题是在第 3 行代码导入库,第 6 行设置主题,下面的图表一样。 热力地图 折线图 折线图,我们加上了标记,最小值,最大值的标记。 圆环图 柱状图 柱状图加上了最小,最大值的水平线。 散点图 箱形图 雷达图 源码获取 关注微信公众号 “

双节棍「大师」鱼佬亲传武功秘籍:如何进行一场数据挖掘算法竞赛?

自作多情 提交于 2021-02-06 15:11:16
当我们掌握了一定的机器学习和数据挖掘基础理论后,参加一场数据算法竞赛可以接触真实的业务和数据,将理论知识过渡到工程应用,同时可以在竞赛过程中进行反复地思考,强化对理论知识的理解。 本次分享,我将以个人竞赛经历和圈内整体情况为背景和大家聊聊如何进行一场数据挖掘算法竞赛,以及赛前、赛中和赛后需要做哪些事情。最后还将进行一个案例分享,来看看我是如何进行一场比赛的。 注: 本文详细视频 晚7点 在阿里天池分享,链接可回看 https://tianchi.aliyun.com/course/live?liveId=41153 主题大纲 为什么要参加数据挖掘竞赛?能带来什么? 参加竞赛需要哪些基础知识和技能? 如何选择适合自己的竞赛? 竞赛中的几个主要模块议 竞赛过程中最重要的事情 好的竞赛总结比竞赛过程更重要 案例分享( 天池“全国城市计算AI挑战赛”) 为什么要参加数据挖掘竞赛? 从理论知识到从理论知识到工程应用;真实数据,增加项目经验 求职加分,企业看重;企业办赛,人才选拔 奖金的激励(丰厚) 交友,学习,PK高手 参加竞赛需要的基础知识和技能? 理论知识掌握:评价指标、数据分析、特征工程、常用模型 工具的掌握 语言的选择:Python 可视化工具:Matplotlib、Seaborn 数据处理工具:Pandas、NumPy 机器学习库:Sklearn、XGBoost、LightGBM

“新内容 新交互” 阿里云全球视频云创新挑战赛正式开启!

随声附和 提交于 2021-02-05 11:31:12
本届全球视频云创新挑战赛是由阿里云联手英特尔主办,与优酷战略技术合作,面向企业以及个人开发者的音视频领域的数据算法及创新应用类挑战。 本届大赛包括两个赛道:“算法挑战赛” 和 “创新应用挑战赛”,参赛选手可以自由报名参加任一赛道。选手可以在视频分割挑战以及视频创新应用领域中,发挥自己的创造力,探索视频云技术在互联网、零售、文娱、安防、文化、教育、金融、交通、公共安全、日常生活、公益等行业领域的应用。 赛程安排 • 报名与实名认证(即日起 —2021 年 4 月 14 日,UTC+8) • 初赛(2021 年 2 月 1 日 - 4 月 16 日,UTC+8) • 复赛(2021 年 4 月 21 日 - 2021 年 6 月 18 日,UTC+8) • 总决赛(2021 年 6 月底,UTC+8) 赛道介绍 算法挑战赛道 算法挑战赛道聚焦视频人像分割领域。视频物体分割将传统图像分割问题延伸到视频领域,可服务于视频理解处理和编辑等任务,近年来成为计算机视觉领域备受关注的研究问题,该问题的目标是在视频帧中分割目标物体的区域,需精确到像素级别。作为视频中经典而重要的内容,人像分割任务将作为本竞赛的分割目标。 创新应用赛道 创新应用赛道要求应用指定的相关技术,解决视频领域和相关行业的的痛点问题,实现应用场景的创新,以技术可行性 / 前瞻性 / 落地价值作为重要评审考察点。 奖项设置 PS

“新内容 新交互” 阿里云全球视频云创新挑战赛正式开启!

本小妞迷上赌 提交于 2021-02-04 13:23:15
本届全球视频云创新挑战赛是由阿里云联手英特尔主办,与优酷战略技术合作,面向企业以及个人开发者的音视频领域的数据算法及创新应用类挑战。 本届大赛包括两个赛道:“算法挑战赛” 和 “创新应用挑战赛”,参赛选手可以自由报名参加任一赛道。选手可以在视频分割挑战以及视频创新应用领域中,发挥自己的创造力,探索视频云技术在互联网、零售、文娱、安防、文化、教育、金融、交通、公共安全、日常生活、公益等行业领域的应用。 赛程安排 报名与实名认证(即日起 —2021 年 4 月 14 日,UTC+8) 初赛(2021 年 2 月 1 日 - 4 月 16 日,UTC+8) 复赛(2021 年 4 月 21 日 - 2021 年 6 月 18 日,UTC+8) 总决赛(2021 年 6 月底,UTC+8) 赛道介绍 算法挑战赛道 算法挑战赛道聚焦视频人像分割领域。视频物体分割将传统图像分割问题延伸到视频领域,可服务于视频理解处理和编辑等任务,近年来成为计算机视觉领域备受关注的研究问题,该问题的目标是在视频帧中分割目标物体的区域,需精确到像素级别。作为视频中经典而重要的内容,人像分割任务将作为本竞赛的分割目标。 创新应用赛道 创新应用赛道要求应用指定的相关技术,解决视频领域和相关行业的的痛点问题,实现应用场景的创新,以技术可行性 / 前瞻性 / 落地价值作为重要评审考察点。 奖项设置 PS:现金大奖哦!

初赛赛道三:服务网格控制面分治体系构建

谁说我不能喝 提交于 2021-01-24 13:43:14
首届云原生编程挑战赛正在报名中,初赛共有三个赛道,题目如下: 赛道一:实现一个分布式统计和过滤的链路追踪 赛道二:实现规模化容器静态布局和动态迁移 赛道三:服务网格控制面分治体系构建 立即报名 (报名时间即日起至06/29): https://tianchi.aliyun.com/specials/promotion/cloudnative#problem-definition 本文主要针对赛道三题目做出剖析,帮助选手更高效的解题。 背景知识 “服务网格” 是近年来非常火热的技术,其全托管的思维非常适合云原生场景。“服务网格” 核心分为控制面与数据面:数据面主要是一个名为 Sidecar 的代理组件,它通过接收控制面发送的路由与控制信息来定向转发或处理数据。这样一些坐落在服务网格里的应用就将整个分布式逻辑交给了底层,自己不用关心了。一旦与底层解耦,灵活性大大增加,更符合云原生的标准。 题目解析 本题的核心考查点还是如何让服务网格的控制面支撑大规模的 Sidecar 实例。为什么会产生这个问题呢?因为在目前服务网格影响最广的实现 Istio 架构中,控制平面 Pilot 负责整个系统的路由转译工作,也就是说所有服务的实例信息都需要通过 Pilot 下发给每一个 Sidecar,当然用户可以通过 SidecarScope 来设置个别 Sidecar 对于系统服务的可见性,但这只会影响到

天池 在线编程 寻找比周围都大的点(模拟)

試著忘記壹切 提交于 2021-01-03 11:33:22
文章目录 1. 题目 2. 解题 1. 题目 https://tianchi.aliyun.com/oj/245679029019779851/254275128279634587 给一个 n*m 大小的矩阵,寻找矩阵中所有比邻居(上下左右,对角也算,不考虑边界就是8个咯)都严格大的点。 返回一个 n*m 大小的矩阵,如果原矩阵中的点比邻居都严格大,则该位置为1,反之为0。 1<=n,m<=100 示例 样例 1 输入 : 1 2 3 4 5 8 9 7 0 输出 : 0 0 0 0 0 1 1 0 0 2. 解题 模拟,时间复杂度 O(mn) class Solution { public : /** * @param grid: a matrix * @return: Find all points that are strictly larger than their neighbors */ vector < vector < int >> highpoints ( vector < vector < int >> & grid ) { // write your code here int m = grid . size ( ) , n = grid [ 0 ] . size ( ) ; vector < vector < int >> ans ( grid ) ;

竞赛总结:新冠期间饿了么骑士行为预估

删除回忆录丶 提交于 2020-11-13 09:29:59
智慧物流挑战赛 赛题介绍 饿了么拥有几十万外卖员,几百万商家,每天外卖订单几千万,服务几亿用户。具体统计每天饿了么外卖员(蓝骑士)行驶的距离累计可以绕地球400圈以上,这就是阿里巴巴本地生活今天的服务规模。 面对新型肺炎疫情,饿了么和广大商家一起,全力组织防护用品供给,平抑价格,增加骑士运力,持续实施最高等级的卫生安全举措,对骑手、餐箱、配送车辆、站点等消毒措施已全面升级,并进行专项督查。 在这些骑士背后,有一套智能调度系统,采用大数据平衡算法,实现自动化派单。 阿里巴巴本地生活聚焦新冠疫情期间的骑士行为,邀请开发者为提高平台的物流运营效率贡献一份力量。 赛题奖励 Top5选手将获得天池奖牌、证书,以及精美礼品。 一等奖:1名,机械键盘 二等奖:2名,Kindle阅读器 三等奖:2名,天猫精灵 阿里校招绿色通道 :初复赛TOP20团队有机会直投简历,简历直投邮箱。 外卖员绿色通道: 优秀的参赛选手可体验当地骑士工作。 赛题任务 在饿了么的配送场景下,骑士在外卖配送中的决策行为主要分为 到店取单 , 到用户处送单两种行为 。骑士在某一时刻会接收到分配给他的配送订单,同时骑士身上也背负着之前分配给他还未完成的订单。骑士会根据当前身上背负所有订单状态和自己所处的位置来决策下一步的任务。 本项比赛的任务就是需要根据骑士历史的决策信息,结合当前骑士所处的状态来预测骑士的下一步决策行为。

AMAP-TECH算法大赛开赛!基于车载视频图像的动态路况分析

有些话、适合烂在心里 提交于 2020-10-09 03:05:59
阿里巴巴高德地图AMAP-TECH算法大赛于7月8日开启初赛,赛题为 「基于车载视频图像的动态路况分析」 ,活动邀请了业界权威专家担任评委,优秀选手不仅可以瓜分丰厚的奖金,领取荣誉证书,还有机会进入高德地图【终面通道】!赶紧邀请小伙伴一起来参赛吧。 报名请戳: https://tianchi.aliyun.com/competition/entrance/531809/introduction 下面给大家介绍下大赛详情。 一、背景 高德地图每天会为用户提供海量的定位和路线导航规划服务,其所提供的路况状态信息(即道路交通是拥挤、缓行还是畅通)的准确性会影响到用户在出行过程中的决策和体验。传统的路况状态主要依靠驾车用户的轨迹信息生成。在用户少、驾驶行为异常的道路上,这种方法难以保证路况状态的准确性。 车载视频图像包含了更多的信息量,给了我们另外一个解决问题的视角。通过视频或图片,可以观察到路面的真实状态,包括机动车数量、道路宽度和空旷度等等。基于车载视频图像可以获取更准确的路况状态,为用户出行提供更高质量的服务。 本赛题要求参赛者通过计算机视觉等人工智能算法,基于视频图像中识别到的路面信息来判断道路通行状态,提高道路路况状态判断的准确性,从而提升高德地图用户的出行体验。 二、赛题描述及数据说明 术语说明 路况 :根据道路的平均车速、道路等级,对道路上车辆通行状态的描述,分为 畅通 、

赛题解析 | 初赛赛道2:实现规模化容器静态布局和动态迁移

僤鯓⒐⒋嵵緔 提交于 2020-10-03 21:20:54
首届云原生编程挑战赛正在报名中,初赛共有三个赛道,题目如下: 赛道一:实现一个分布式统计和过滤的链路追踪 赛道二:实现规模化容器静态布局和动态迁移 赛道三:服务网格控制面分治体系构建 立即报名(报名时间即日起至07/01): https://tianchi.aliyun.com/specials/promotion/cloudnative#problem-definition 本文主要针对赛道2题目做出剖析,帮助选手更高效的解题。 背景 阿里每年双11不断的创造奇迹的背后,是巨大的资源成本投入,用以支撑峰值流量。每年各种大促、基础设施的升级都有可能会涉及到中心、单元机房站点变化,而这些站点的迁移、变化,我们可能会短时间借助离线、云上资源等,也可能会评估采购物理机,但无论是采用哪种方式,我们都期望控制成本用尽可能少的资源成本满足当下站点需求。 日常态 来源: oschina 链接: https://my.oschina.net/u/4259809/blog/4313156

阿里天池全国社保比赛心得

自闭症网瘾萝莉.ら 提交于 2020-08-19 22:30:43
最近时间都忙于参加阿里天池的全国社会保险大数据应用创新大赛,终于结束,最终全国排名第7,总共是1336只队伍参加,还是很激动进了前10,今天想把一些体悟写一下,希望对后来参加的人有用。这个比赛是完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,根据给出的数据情况,最开始有两个思路,1.从就诊记录入手,找到可疑的就诊记录,然后拼接到人上 2.直接构造人的可疑程度的行为特征。两者都试过,最终选择了后者,因为题目给出的欺诈标签主要是人的欺诈标签,并没有给出某次就诊行为的欺诈标签。另外,此次的评测指标是F1值,这个非常重要,你要知道你最终排名都是看的这个值。下面我从三个方面讲一下这次比赛的心得。 一、特征 可能没参加比赛前很难理解 特征决定上限 的这个真理,特征特征才是最重要的! 一定要看特征重要度,要不断尝试,有些组合到一起反而降低,有些特征看着不重要,你把他去了 可是结果却会出现下降的情况,因为特征和特征之间是有关系的。 在重要特征做深入处理的收益远大于在次要特征中继续做。 汇总信息有些时候会丢失信息,比如我们最开始将医院数据进行了汇总,计算每个人去一级医院,二级医院,三级医院的个数,反而没有把所有医院的维度扩充好。 观察和了解你的数据很重要。观察数据发现患者同一天在同一个医院有药费,有治疗费分别出现不同的就诊id,包括挂号的费用也是不同的id