聚类

机器学习实训课程|31章全免费!完整的自学教程+课件+安装包

扶醉桌前 提交于 2020-08-06 05:32:39
Python玩转机器学习(纯手工代码实现)课程旨在帮助同学们在机器学习领域打下坚实基础。课程注重算法原理讲解与数学公式推导并基于Python语言给出完整的代码实现,从零开始实现每一模块功能(非调用工具包)通过代码实例演示算法工作流程与实现方法。建议同学们在学习过程中先掌握算法原理,基于数学推导公式进行代码复现与实战演练。课程提供全部课程所需PPT,数据,代码。 机器学习|31章全免费!完整的自学教程+课件+安装包 ​ mp.weixin.qq.com 第一章: Python实战关联规则 1-关联规则概述 2支持度与置信度 3-提升度的作用 4-Python实战关联规则 5-数据集制作 6-电影数据集题材关联分析 第二章:爱彼迎数据集分析与建模 1-数据与任务分析 2-提取月份信息进行统计分析 3-房价随星期变化的可视化展示 4-房屋信息指标分析 5-提取房屋常见设施 6-房屋规格热度图分析 7-预处理与建模准备 8-随机森林与LightGBM 9-训练与评估 第三章:基于相似度的酒店推荐系统 1-数据与任务介绍 2-文本词频统计 3-ngram结果可视化展示 4-文本清洗 5-相似度计算 6-得出推荐结果 第四章:商品销售额回归分析 1-数据任务分析 2-特征工程制作 4-特征信息提取 5-标签变换. 6-输入数据制作 7-Xgboost训练模型 8-生成输出结果 第五章

轻量化AI服务再添两将!阿里云机器学习PAI DSW 2.0 & Alink商业版重磅发布

萝らか妹 提交于 2020-08-05 21:10:20
DSW 2.0:面向AI研发的集成开发平台 DSW(Data Science Workshop)是阿里巴巴PAI团队根据多年的AI算法和产品研发经验积累,围绕提高AI算法研发效率,降低研发成本而推出的一款适用于各类AI开发者的云端机器学习集成开发环境。DSW2.0是借助阿里云ECS,Docker和Kubernetes等云原生技术,能够在几分钟内帮用户完成环境搭建,相对DSW1.0开放更高的开发权限,满足各个层面客户的使用需求。 云原生架构 DSW借助阿里云ECS,Docker和Kubernetes等云原生技术,能够在几分钟内帮用户完成环境搭建。用户可以根据算法需要和成本考虑,选择阿里云ECS提供的包括CPU和异构计算GPU在内的所有资源规格。 满足不同层次开发习惯 结合交互式编程和命令行输入,DSW提供了三种编程入口: WebIde适用于工程化要求比较高的项目;JupyterLab适用于快速POC试验;Terminal入口可用于快速执行Shell命令,运行程序和简单的编辑等。 预装丰富插件 DSW还开发和预装了各种JupyterLab和WebIDE插件,比如广受深度学习开发者喜爱的可视化工具Tensorboard,用户在DSW内通过Launcher,Commands打开,甚至还可以使用%tensorboard魔法命令直接在Notebook中开启等多种方式使用Tensorboard

除了Python,Go也成为最受欢迎的黑客工具

无人久伴 提交于 2020-08-05 19:38:01
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 作者丨xplanet 来源丨开源中国(oschina2013) https://mp.weixin.qq.com/s/YZysWe0zLqawRUOL_f6p-A 网络安全公司 Imperva Cloud WAF 近期分享了其在 2019 年一年内针对网络安全事件的观察。对数据进行聚类分析后,他们得到了如下结论: 按工具来分类,Python 依旧是大多数黑客的首选武器,紧接着是使用量增长迅速的 Go 语言;再其次是 WinHttp 库,该库主要由 Windows 上运行的 .net 和 CPP 使用;Shell 工具(如 cURL、wget 等)也榜上有名。浏览器也是常用的攻击工具。 根据 GitHut 2.0 给出的统计信息,Python 和 Go 都在 2019 年的前五大语言中占有一席之地。于是,Imperva 公司又将目光聚焦到了 GitHub 上的网络安全项目。GitHub 虽然未对存储库进行直接分类,但 Security 主题下拥有超过 8,500 个与安全相关的库,而这些库中的主要语言分别为:长期排在第一位的 Python,其次是 Java、JavaScript 和 PHP,最后是 Go。前四位毫不令人意外,而 Go

从底层分销员到数据部门主管,我的奇妙数据分析转行之路

早过忘川 提交于 2020-08-05 16:42:34
最近逛知乎,无意中刷到这个问题,一时间就回忆起了自己当年学数据分析的时候,顿时感慨万千,于是写下一段自己的经历,希望能给大家带来一些参考。 一、我的转行之路 我可能属于转行比较早的了,大约在2010年左右开始接触数据分析,完全转行成功差不多是在13年前后,那时候数据分析还刚刚有大火的苗头,于是幸运地搭上了顺风车,现在是一家传统企业的数据部门主管(非IT部门),慢慢开始转向做管理。 当时我跟很多刚毕业的年轻人一样,踌躇满志地去了北京,误打误撞找了一家刚起步做电商零售的公司,在里面刚开始做的是分销员,每天的工作就是在网上到处找代理商、分销商,后来又负责仓储物流管理,也做过一段时间销售。 当年我记得正是团购网站和电商平台大火的时候,淘宝、美团这样的平台遍地都是,竞争非常激烈,很多小平台要么被收购,要么直接倒闭。做了一年多,我就明显感觉到公司好像要撑不住了,部门主管走了一个又一个、换了一个又一个,之前象征性发发的加班补贴,后来也发不起了。 当时我就已经开始学习数据分析了,当时倒不是因为想要转行, 仅仅是对这门学科很感兴趣,从统计学到数理逻辑学,从做报表到大数据 ,对我来说新鲜感十足,当时也没想着能把数据分析作为自己未来的职业,一方面只是出于兴趣,另一方面觉得技多不压身。 说起刚刚接触数据分析的时候,所谓的学习视频、网课、培训之类的资料少之又少,自己完全是靠读书和实践积累的经验。

容联荣膺「金融AI技术引领奖」,助力金融机构搭建智能交互中心

房东的猫 提交于 2020-08-05 13:08:54
6月18日~19日,为了加强金融科技的合理应用,赋能金融服务提质增效,推动金融行业高质量发展,由中国消费金融协会、中国互联网金融协会、中国金融科技组委会共同主办的2020中国金融科技国际峰会在上海隆重召开。本届大会秉持守正创新、安全可控、普惠民生、开放共赢的原则,旨在探讨5G时代金融科技行业将出现哪些变化?在变化中如何充分发挥金融科技赋能作用?来自全国各地的行业专家及学者齐聚一堂,共同勾勒未来科技金融产业发展的新方向。 作为智能通讯领域的云服务专家,容联受邀出席了本届盛会,并凭借搭建通讯AI中台,以智能交互中心重构企业联络中心的亮眼表现,一举斩获中国金融科技国际峰会组委会颁发的‘「2020年度金融AI技术引领奖」。 在大会现场,容联AI语音机器人解决方案总监苏湘以“智能交互中心的发展之路”为主题向与会嘉宾分享了基于容联AI技术在金融领域的应用。分享中苏湘表示:“人工智能技术正在逐渐给社会带来了巨大的改变,并且已经应用在诸多的行业里,尤其是在金融行业。银行已经成为人工智能技术落地场景众多,发展最为迅速的领域之一,也是未来人工智能发展的重要方向之一。而在众多的人工智能技术中,基于语音和文本的智能交互技术是最早落地的,也是市场上应用最为广泛的技术。” 容联智能交互中心发展分为三个阶段,在第一个阶段,智能交互中心扮演一个调度中心的角色。在这阶段

异常检测算法演变及学习笔记

我们两清 提交于 2020-08-05 07:46:21
【说在前面】本人博客新手一枚,象牙塔的老白,职业场的小白。以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] 【补充说明】异常检测,又称离群点检测,有着广泛应用。例如金融反欺诈、工业损毁检测、电网窃电行为等! 一、基于时间序列分析 关于时间序列分析的介绍,欢迎浏览我的另一篇博客: 时间序列分析中预测类问题下的建模方案 ,这里不再赘述。 1. 基于同比和环比 适合数据呈周期性规律的场景中。例如: 监控APP的DAU的环比和同比,及时发现DAU上涨或者下跌 监控实时广告点击、消耗的环比和同比,及时发现变化 当上述比值超过一定阈值,则判定出现异常。 2. 基于统计学模型预测 移动平均MA是一种分析时间序列的常用工具,它可过滤高频噪声和检测异常点。 根据计算方法的不同,常用的移动平均算法包括简单移动平均、加权移动平均、指数移动平均。 在序列取值随时间波动较小的场景中,上述移动均值与该时刻的真实值的差值超过一定阈值,则判定该时刻的值异常。 当然,还有ARMA、ARIMA、SARIMA等适用于时间序列分析的统计学模型,可以预测信号并指出其中的异常值。 3. 基于时间序列分解 STL是一种单维度时间指标异常检测算法。大致思路是: (1)先将指标做STL时序分解,得到seasonal、trend、residual成分。 (2)用ESD算法对trend

深度学习在三维环境重建中的应用

给你一囗甜甜゛ 提交于 2020-08-05 05:23:20
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 作者:黄浴 https://zhuanlan.zhihu.com/p/112103579 本文仅做学术分享,如有侵权,请联系删除。 最经典的计算机视觉问题是3-D重建。基本上可以分成两种路径:一是多视角重建,二是运动重建。前者有一个经典的方法是多视角立体视觉(MVS,multiple view stereo),就是多帧的立体匹配,这样采用CNN模型来解决也合理。传统MVS的方法可以分成两种:区域增长(region growing)和深度融合(depth-fusion)。当年CMU在美国超级碗(Superbowl)比赛展示的三维重建和视角转化,轰动一时,就是基于此路径,但最终没有被产品化(技术已经转让了)。 后者在机器人领域成为同步定位和制图(SLAM)技术,有滤波法和关键帧法两种,后者精度高,在稀疏特征点的基础上可以采用集束调整(BA,Bundle Adjustment),著名的方法如PTAM,ORB-SLAM1/2,LSD-SLAM,KinectFusion(RGB-D数据),LOAM/Velodyne SLAM(激光雷达数据)等。运动恢复结构(SFM)是基于背景不动的前提,计算机视觉的同行喜欢SFM这个术语,而机器人的同行称之为SLAM。SLAM比较看重工程化的解决方案,SFM理论上贡献大。 另外,视觉里程计(VO

揭秘淘宝平台广告策略,拆解最佳投放实践

て烟熏妆下的殇ゞ 提交于 2020-08-05 03:21:56
摘要: 在广告展示数一定的条件下,点击率的高低就是决定一个广告能否被更多人看到的因素。本文主要针对“点击率”这一因素进行分析,与大家分享。 在广告展示数一定的条件下,点击率的高低就是决定一个广告能否被更多人看到的因素。本文主要针对“点击率”这一因素进行分析,与大家分享。 本文为Rambo同学以项目分析的架构,从多维度展开分析。全文共4000+字,建议收藏。 P1 分析背景及目的 这是一份淘宝平台的广告展示/点击数据,本次分析需要从这些数据中发现某些规律或者异常,进而给运营团队提出建议。 评价一个广告效果的指标就是广告的点击人数,可以反映一个广告有多少人愿意点击查看广告的内容,只有广告被点击,后续转化为购买行为才会发生。 把广告的点击人数指标拆分: 广告点击人数=广告展示数 x 点击率 而广告展示数又由广告商品的价格、类别影响;不同人群对不同类别商品有着不同的喜好,从而影响广告的点击率。 在广告展示数一定的条件下,点击率的高低就是决定一个广告能否被更多人看到的因素。 因此本次分析就针对【点击率】这一因素进行分析 P2 分析思路 从“广告”和“用户”两个角度进行分析: 1.广告角度 分析不同广告的商品价格对点击率的影响 分析哪些类别的广告点击率更高,哪些类别的点击率低 2.用户角度 分析性别和广告点击率有什么关系 结合聚类分析与RFM模型分析用户群体对广告点击率有什么关系 P3

Winglets: Visualizing Association with Uncertainty in Multi-class Scatterplots

吃可爱长大的小学妹 提交于 2020-08-04 12:04:49
论文传送门 作者 深圳大学 Min Lu Shuaiqi Wang Yang Yue Daniel Cohen-Or Hui Huang 海法大学 Joel Lanir 以色列特拉维夫大学 Noa Fish 摘要 这项工作提出了“小翼”,它是对经典散点图的增强,可以通过改善关联点的感知和与其相关聚类的不确定性来更好地感知多个类别。小翼被设计为属于数据点的一对双向笔划,它利用格式塔的闭合原理来塑造对簇形式的感知,而不是使用显式的除法编码。通过对长度和方向这两个主要属性的微妙设计,小翼使观看者能够对群集进行心理上的补全。通过进行一项受控用户研究,检查了小翼感知聚类关联的效率和某些点的不确定性。结果表明,小翼将点更紧密地关联到聚类中,并改善了关联不确定性的感知。 Introduction Visualize Multiclass in Scatterplot To support better perception of groups To convey assignment uncertainty Related work Perceptual Grouping Gestalt Principles a set of principles in psychology about how objects are visually perceived as groups by human

字节跳动算法岗一面面经(算法工程师-飞书岗位)

孤者浪人 提交于 2020-08-04 09:43:06
1、首先来段自我介绍 因为博主本人是传统工科(仪器类),但是研究方向和机器学习和深度学习相关,所以多介绍了一些发表论文和正在做项目,自我介绍的内容要突出优势,和面试岗位相关的详细展开说一些。 2、和一个外行人介绍一下机器学习 我是从有无监督展开说的(半监督也提到一点),通过有无监督提到了分类和聚类的方法和区别,结合了自己的课题。 3、介绍一下为什么CNN可以进行物体的分类(面向对象为初学者) 之前看过一个知乎的文章分享给大家: https://zhuanlan.zhihu.com/p/31249821 写的十分通俗易懂,可以按照这个做介绍 4、说一下机器学习,神经网络、深度学习之间的关系 因为如果从大的方面去介绍的话,无从下手,所以我用了时间段做了梳理,总结了一下之间的相关性。 5、实现过代码吗?创建环境时遇见了哪些问题? 我从自己写的论文作为依据,说了一下自己论文中对卷积神经网络做的改进,然后介绍了一下创建环境的过程,遇见的问题提到了cpu不够用,用了虚拟机,构造了虚拟内存。 6、虚拟内存的原理 不会(笑),我实现了,但是原理没留意。 7、学过SQL吗?统计一下抖音用户的一天内使用此APP的时间? 学过,但是没实现过这个功能(使用APP的时间从苹果的设置里面就能看了),做过活跃用户的统计。 8、用SQL实现一周内活跃用户的统计 9、学过数据结构吧?知道栈吗? 10