无监督学习

Kaggle金牌得主的Python数据挖掘框架,机器学习基本流程都讲清楚了

跟風遠走 提交于 2020-09-29 05:40:28
作者 | 刘早起 来源 | 早起Python 导语:很多同学在学习机器学习时往往掉进了不停看书、刷视频的,但缺少实际项目训练的坑,有时想去练习却又找不到一个足够完整的教程,本项目翻译自kaggle入门项目Titanic金牌获得者的Kernel,该篇文章通过大家并不陌生的泰坦尼克数据集详细的介绍了如何分析问题、数据预处理、建立模型、特征选择、模型评估与改进,是一份不可多得的优秀教程。 本文在翻译的同时删减了部分介绍性文字,并对结构进行了调整方便大家阅读,由于篇幅原因,本篇文章中并没有包含大段的代码,仅保留过程与结果。建议在文末获取Notebook版本与数据集完整复现一遍,如果你正处于机器学习入门阶段相信一定会有所收获。 项目背景与分析 泰坦尼克号沉没是历史上有名的沉船事件之一。1912年4月15日,在泰坦尼克号的首次航行中,与冰山相撞后沉没,使2224名乘客和机组人员中的1502人丧生。这一耸人听闻的悲剧震惊了国际社会。 沉船事故导致人员丧生的原因之一是没有足够的救生艇供乘客和船员使用。尽管在下沉中幸存有一定的运气,但某些群体比其他群体更可能生存,例如妇女,儿童和上层阶级。 在这个项目中,我们被要求完成对可能生存的人群的分析。并且需要使用机器学习工具来预测哪些乘客可以幸免于悲剧。 数据读取与检查 首先导入与数据处理相关的库,并检查版本与数据文件夹 #导入相关库 import sys

Python机器学习教程

帅比萌擦擦* 提交于 2020-09-24 07:30:30
本机器学习教程提供了机器学习的基本和中间概念。它是为完全入门的学生和专业工作人员而设计的。在本教程的最后,您不会成为机器学习方面的专家,但是您将能够制作能够执行复杂任务(例如,预测房屋价格或从尺寸识别虹膜的种类)的机器学习模型。花瓣和萼片的长度。如果您还不是一个完整的初学者,并且对机器学习有所了解,那么我建议您从子主题八开始,即机器学习类型。 在进入本教程之前,您应该熟悉Pandas和NumPy。这对于理解实现部分很重要。以下是我们将在本教程中讨论的子主题: 什么是机器学习? 它与传统编程有何不同? 为什么我们需要机器学习? 机器学习的历史 目前的机器学习 机器学习的特点 机器学习的最佳语言是什么? 机器学习的类型 监督学习 无监督学习 强化学习 机器学习算法 机器学习步骤 机器学习的优势 未来的机器学习 什么是机器学习? 亚瑟·塞缪尔(Arthur Samuel)在1959年创造了“机器学习”一词。他是人工智能和计算机游戏的先驱,并将机器学习定义为“使计算机无需明确编程即可学习的能力的研究领域”。 简而言之,机器学习是人工智能(AI)的一种应用程序,它使程序(软件)可以从经验中学习并提高自己在完成一项任务时的自我,而无需进行明确的编程。例如,您将如何编写一个程序来根据水果的各种属性(例如颜色,形状,大小或任何其他属性)识别水果? 一种方法是对所有内容进行硬编码

《统计学习方法》第二版的代码实现

女生的网名这么多〃 提交于 2020-08-19 23:14:40
《统计学习方法》的代码实现 下载地址:https://github.com/fengdu78/lihang-code 打包下载: 链接:https://pan.baidu.com/s/13Ob6SoAnRCYEkipIwiDHZQ 提取码:arqo “机器学习初学者”公众号 李航老师编写的《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。 《统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。 今天我们将李航老师的《统计学习方法》第二版的代码进行了整理,并提供下载。 非常感谢各位朋友贡献的自己的笔记、代码! 2020年6月7日 代码更新地址: https://github.com/fengdu78/lihang-code 代码目录 第1章 统计学习方法概论 第2章 感知机 第3章 k近邻法 第4章 朴素贝叶斯 第5章 决策树 第6章 逻辑斯谛回归 第7章 支持向量机 第8章 提升方法 第9章 EM算法及其推广 第10章 隐马尔可夫模型

73岁Hinton老爷子构思下一代神经网络:属于无监督对比学习

断了今生、忘了曾经 提交于 2020-08-18 20:51:56
在近期举行的第 43 届国际信息检索年会 (ACM SIGIR2020) 上,Geoffrey Hinton 做了主题为《The Next Generation of Neural Networks》的报告。 机器之心报道,编辑:魔王、杜伟。 Geoffrey Hinton 是谷歌副总裁、工程研究员,也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。2018 年,他与 Yoshua Bengio、Yann LeCun 因对深度学习领域做出的巨大贡献而共同获得图灵奖。 自 20 世纪 80 年代开始,Geoffrey Hinton 就开始提倡使用机器学习方法进行人工智能研究,他希望通过人脑运作方式探索机器学习系统。受人脑的启发,他和其他研究者提出了「人工神经网络」(artificial neural network),为机器学习研究奠定了基石。 那么,30 多年过去,神经网络的未来发展方向在哪里呢? Hinton 在此次报告中 回顾了神经网络的发展历程,并表示下一代神经网络将属于无监督对比学习 。 https://v.qq.com/x/page/l3124haqfg8.html ​ v.qq.com Hinton 的报告主要内容如下: 人工神经网络最重要的待解难题是:如何像大脑一样高效执行无监督学习。 目前,无监督学习主要有两类方法。

Hinton等6位图灵奖得主、百余位顶级学者邀你加入群聊,共话人工智能下一个十年

邮差的信 提交于 2020-08-18 07:41:05
  自2009年深度学习崛起以来,第三波人工智能浪潮席卷全球,推动了新一波技术革命。   在这波澜壮阔的11年,我们见证了技术突破、应用创新与产业变革。   技术上,深度学习首先带来计算机视觉、语音识别等领域的突破,让机器识别的准确率一步步突破人类水平;在应用上,深度学习、强化学习、联邦学习等学习范式在安防、游戏、金融等不同场景带来新的创新。人工智能技术,在这些领域由点到面的落地应用,逐步推动着整个产业的变革。   技术变革,需要不断的推陈出新。在这11年中,如果说前半期是深度学习的时代,那么近年来我们能够看到更多不同的概念继续推动这人工智能的发展:符号主义、因果关系、联邦学习,等等。   2020年,是一个十年的结束,也是下一个十年的开始。   在未来的十年,人工智能技术将如何发展?如何推动AI技术在医疗、交通等领域的落地应用?如何构建AI基础设置、规范AI伦理,都是当前人工智能领域亟待解决的问题。   依托北京在人工智能领域的科研和人才优势,第二届北京智源大会将于6月21-24日线上开幕。   此届大会围绕技术、应用、基础设施等话题,广泛邀请国内外人工智能领域的顶级专家学者,探索人工智能前沿科技发展趋势,对人工智能基础研究发展现状及面临的机遇和挑战、人工智能技术未来发展的核心方向等话题展开分享与讨论。本届大会主席由智源研究院理事长、源码资本投资合伙人 张宏江

编程模型(MapReduce和Graph)

半腔热情 提交于 2020-08-16 08:22:08
MapReduce编程模型 MR基础 最大优点是充分利用了闲置资源,多任务并行,快速得到答案。 拆分-处理-合并 MR框架介绍 MR处理流程 MapReduce(最早由Google提出)是一种分布式数据处理模型;核心过程主要分成2个阶段:Map阶段和Reduce阶段;首先执行Map阶段,再执行Reduce阶段。Map和Reduce阶段的处理逻辑由用户自定义实现,即实现分布式计算。 MR模型的适用场景 搜索:网页爬取、倒排索引,PageRank Web访问日志分析:分析和挖掘用户在web上的访问、购物行为特征,实现个性化推荐;分析用户访问行为。 文本统计分析:例如小说的WordCount,词频TFIDF分析;学术论文、专利文献的饮用分析和统计;维基百科数据分析等。 海量数据挖掘:非结构数据、时空数据、图像数据的挖掘。 机器学习:监督学习、无监督学习、分类算法如决策树、SVM等。 自然语言处理:基于大数据的训练和预测;基于语料库构建单词同现矩阵,频繁项数据挖掘、重复文档检测等。 广告推荐:用户点击(CTR)和购买行为(CVR)预测 MR框架 用户视角看原理 用户视角谈实现 扩展MR MR开发使用流程 1、阿里云官网下载插件、配置开发环境 2、新建java项目,完成MR开发 增加mapper 增加Reducer 增加MR Driver 添加处理逻辑 3、本地测试 准备本地测试数据

get这款工具,不会机器学习也能轻松搞定深度分析

北城以北 提交于 2020-08-14 08:20:24
机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。通过计算机对数据的处理和对算法的运用,实现对业务场景的深度分析,帮助人们更好的做决策。永洪深度分析模块是将机器学习算法封装成节点,用户通过拖拽的方式从而便捷的应用机器学习算法。 如何使用深度分析模块?首先需要安装永洪Desktop,里面会带有深度分析功能,目前可以免费试用3个月。其次根据需要安装R服务环境或Python服务环境,也可以两个都安装。如果不会安装可以查看在线帮助或到官网社区中的产品问答中看相关说明。再次,安装好后,打开Desktop,选择【管理系统】-【系统设置】-【R计算配置/Python计算配置】,如下图1所示。填写服务器地址和端口号,点击测试连接,如果连接正确,右上角会弹出测试成功。最后点击保存连接,至此,深度分析功能就可以使用了。 图1 想要对业务进行深度分析,就需要对机器学习的流程有一定的了解,通常的流程共有8步,如下图2。在永洪的产品中提供了几个常用的深度分析的场景,大家可以打开看看,也可以复用使用。 图2 第一步,问题分析,就是要确定对哪个问题进行分析。例如,对于银行业企业,通常会进行信用卡反欺诈分析、营销策略分析等。对于零售行业,通常会进行销售预测、用户画像分析等。对于政府,可以进行交通预测

K-means:无监督聚类的经典算法

主宰稳场 提交于 2020-08-14 02:29:55
K-means:无监督聚类的经典算法 作者:郑培 无监督学习 是一类用于在数据中寻找模式的机器学习技术。无监督学习算法使用的输入数据都是没有标注过的,这意味着数据只给出了输入变量(自变量 X)而没有给出相应的输出变量(因变量)。在无监督学习中,算法本身将发掘数据中有趣的结构。在 监督学习 中,系统试图从之前给出的示例中学习。(而在无监督学习中,系统试图从给定的示例中直接找到模式。)因此,如果数据集被标注过了,这就是一个监督学习问题;而如果数据没有被标注过,这就是一个无监督学习问题。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x。 K-means 是我们最常用的基于欧式距离的聚类算法 ,它是 数值的 、非监督的、 非确定的 、 迭代的 ,该算法旨在最小化一个目标函数——误差平方函数(所有的观测点与其中心点的距离之和),其认为两个目标的距离越近,相似度越大,由于具有出色的速度和良好的可扩展性,Kmeans聚类算法算得上是最著名的聚类方法。本文将带大家回顾K-means算法的理论内涵以及初始化优化K-Means++方法。 本文的项目实例实现在Momodel平台上,可以边看边学哦! mo平台项目地址: https://momodel.cn/workspace

机器学习项目失败的9个原因

纵然是瞬间 提交于 2020-08-13 04:56:55
本文总结了数据科学项目失败的最常见原因,希望能够帮助你避免陷阱。 1.问错了问题 如果你问了错问题,你将会得到错误的答案。比如金融业中的欺诈识别问题,这个问题最初可能是“这个特定的交易是否存在欺诈”。为了确定这一问题,你将需要一个包含欺诈和非欺诈交易示例的数据集。这个数据集可以在一组专门负责侦测欺诈行为的专家(SME)的帮助下生成。但是,由于专家们依据的是过去对欺诈行为的认识进行的标记,用该数据集训练的模型只会捕获符合旧模式欺诈,而对于新兴的欺诈方式,这一模型将无法识别。如果将问题改为“这个交易是否反常”,它只需寻找不符合“正常”签名的交易,依靠人类进一步分析预测的欺诈交易以验证模型结果即可。但这种方法的副作用是,它很可能会比以前的模型产生更多的误报。 2.试图用它来解决错误的问题 我们经常会忽视一个问题:我们费尽心思解决了一个问题,但是解决后是否能实现我们的目的。比如,你想出了用人工智能开发出一个将人的全身照传上网站就能根据提醒量身定做一套合身的衣服的项目。完成这个项目我们需要完成以下任务: ·开发AI/ML技术以确定照片中的身体测量值; ·设计并创建一个网站和手机应用,以便与客户进行互动; ·进行可行性研究以确定此产品是否有市场。 作为技术专家,我们最熟悉的就是产品设计与编码,因此我们可能想开始研究前两个任务

华为云到底用AI做了什么?从少坐一趟机场摆渡车谈起

让人想犯罪 __ 提交于 2020-08-13 03:24:48
  机器之心原创    作者:张倩    「Everyone’s talking about AI. Huawei is making it happen.」   你坐飞机的时候有没有想过一个问题:「为什么我坐的飞机总是不靠廊桥,还要拿着行李去挤摆渡车?」      通常,相关人员会告诉你:廊桥资源比较珍贵,因此飞机靠桥的几率要低于停在远机位的几率。   其实,这个答案只说出了一部分原因。   随着机场航班数量的不断增加,「靠桥率」成为了衡量机场运行管理水平 的重要指标。要在这个指标上有所提高,除了改善硬件之外,「调度」也是一个突破口。   在国内,深圳机场率先找准了这个「突破口」。   深圳机场的廊桥机位与远机位的比例为 1:3。按照这个比例,很大一部分乘客都需要乘坐摆渡车。那么,如何让更多的航班停靠在廊桥呢?深圳机场给出的解决方案是:AI 智能调度。   在 2018 年之前,深圳机场使用的调度方案主要是人工和系统配合的,每天 1000 多个航班的机位分配需要花掉 4 个小时。从 2018 年 11 月开始,深圳机场开始建设机位资源智能分配系统,2019 年正式上线。该系统将靠桥率提升了 10 个百分点,每个廊桥每天能多保障一个航班,一年之内为 400 万旅客省去了坐摆渡车的麻烦。同时,它还将机位分配的时间缩短为 1 分钟。   在刚刚结束的华为云 TechWave