python机器学习

一、《集体智慧编程》之机器学习&数据挖掘框架认识

廉价感情. 提交于 2019-12-03 21:03:02
前言:新开通的博客,用于记录一些学习方面的东西,算是一个学习笔记吧。本系列按照《集体智慧编程》一书的框架进行。老实说,《集体》在理论上并不算是很好的参考书,但是该书是以一个个具体场景应用为驱动的,个人认为很适合用于机器学习相关的入门教材,起码很对我的胃口。 “假如你训练了一只狗,若干年后,如果它忽然有一天能帮你擦鞋洗衣服,那么这就是数据挖掘;要是忽然有一天,你发现狗化装成一个老太婆消失了,那么这就是机器学习。” ——杨强,香港科技大学 机器学习说起来应该是人工智能领域与算法领域的一个子领域。它允许计算机不断的进行学习。大多数情况下,这相当于将一组数据传递给算法,并由算法推断出这些数据属性相关的信息——借助这些信息,算法能够预测出未来有可能出现的其他数据。简单点来说就是从数据中自动分析获得规律,并利用规律对未知数据进行预测。 数据挖掘在某方面可以说算是机器学习的一种应用。机器学习算法其它的方面的应用有计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺骗、证券市场分析、DNA序列测序、语音和手写字识别、战略游戏和机器人运用等。 1、机器学习&数据挖掘的数学基础 机器学习是一个多领域交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等。具体来说,机器学习与数据挖掘学习需要用到的数学核心基础有以下几个方面: ①微积分 (没办法,这个是数学分析的基础)

第38月第4天 自然语言AI

南楼画角 提交于 2019-12-03 10:18:30
1.有道 自然语言翻译 http://ai.youdao.com/anli.s#education 2. 码农场博主,HanLP作者何晗新书《 自然语言处理入门 》,跟着这本书,实现NLP的基础模块,这大概是最好的入门方式之一,具体可参考:《 人人都可以看懂的NLP入门书 》。 《 自然语言处理综论 》,目前第二版翻译版本已经出版,我当年的入门书,不过看得是第一版翻译版本,英文名《 Speech and Language Processing 》, 第三版据说很快就要出版,有条件的同学建议直接看英文版。 《 统计自然语言处理基础 》,另一本入门书籍,这本书的英文版貌似没有更新,但是中文版貌似也不再发售了,当然,优先推荐读英文版。 《 Python自然语言处理 》,NLTK配套丛书,有了上面两本书的介绍,再加上一些Python基础,通过这本书进行相关的文本挖掘实战,很不错的一个路径。 《Python深度学习》 ,近期读过的一本深度学习好书,隆重推荐。本书由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱(François Chollet)执笔,详尽介绍了用Python和Keras进行深度学习的探索实践,涉及计算机视觉、自然语言处理、生成式模型等应用。书中包含30多个代码示例,步骤讲解详细透彻。由于本书立足于人工智能的可达性和大众化

《机器学习实战》高清中文带标签PDF+高清英文PDF+源代码

。_饼干妹妹 提交于 2019-12-03 05:45:02
1 写在前面 最近在做机器学习项目的时候发现一本好书,《机器学习实战》, 介绍并实现机器学习的主流算法。 面向日常任务的高效实战内容, 《机器学习实战》没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+实际代码+运行效果 我们都知道,机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。 入门建议参考《机器学习实战》,分为4个部分,分别是分类(有监督学习,包括KNN/决策树/朴素贝叶斯/逻辑斯蒂回归/svm/改变样本权重的bagging和adaboosting)、回归(有监督学习,线性回归、局部加权、特征维度比样本个数多时缩减系数,如岭回归、lasso等,树回归,这块掌握不太好)、无监督学习(kmeans、apriori/fp-growth)以及其他工具(PCA/SVD/MAPREDUCE)。 2 学习参考 《机器学习实战》高清中文版, 339页,带目录书签,文字可复制;高清英文版, 382页,带目录书签,文字可复制; 中英文两版对比学习。讲解详细并配有源代码。 本书百度云盘下载链接: 《机器学习实战》高清带标签PDF + 源码下载 3 本书目录 第1章 机器学习基础   1.1

机器学习必要入门基础知识教程

倖福魔咒の 提交于 2019-12-03 04:18:20
机器学习的基础知识是什么,以及在机器学习应用程序中评估风险和其他问题的必要工具是什么?本文介绍机器学习必要入门基础知识教程。 机器学习的目标是在数据中找到模式并使用这些模式进行预测,它还可以为我们提供一个讨论机器学习问题和解决方案的框架方法。 首先,我们将从机器学习的定义和应用开始,然后,我们将讨论机器学习中的抽象,并使用它来构建我们的讨论:数据,模型,优化模型和优化算法,并总结使用机器学习的实用指南。 那么,机器学习到底是什么? 机器学习通常是一组用于查找数据模式的技术,应用范围从自动驾驶汽车到个人AI助手,从英语和中文之间的翻译到语音和文本之间的翻译。机器学习的一些常见应用已经或可能潜入日常工作中。 检测异常 识别网站流量的高峰或突出显示异常的活动。 推荐相似的内容 查找你可能正在寻找的产品,或者相关文章。 预测未来 规划车辆的路径或确定并推断股票的市场趋势。 以上是机器学习的许多应用中的一小部分,但大多数应用程序与学习数据的基础分布有关。分布指定每个事件的事件和概率。例如 有50%的概率,你买一件物品50RMB-100RMB。 有概率为1%,你购买的物品> 100RMB。 使用此分发,我们可以完成上述所有任务: 检测异常 购买100RMB物品,我们可以称之为异常。 推荐相似内容 购买一件物品价格在50RMB-100RMB。 预测未来 如果没有任何先前的信息

从理论研究到场景落地:人工智能发展势头更进一步

匿名 (未验证) 提交于 2019-12-03 00:43:02
2018年,可以说是人工智能落地的元年,各大企业纷纷转型,商业落地的强势竞争使得人工智能市场一时烽烟四起。从软件层面的算法比拼到商业落地层面的应用比拼,传统行业不断向智能化升级,闭门造车成为过去式,场景落地成为企业的竞争出路。下面,小编将结合亿欧网发布的《2018中国人工智能商业落地研究报告》为大家简要梳理目前人工智能落地的发展概况,该报告以营收范围为呈现角度,一定程度上反应了人工智能在细分领域的商业化程度。 人工智能明星独角兽企业 商业落地领跑者 一、寒武纪科技 寒武纪智能是国内首批专注于智能家庭服务机器人、集产品研发和营销为一体的创新型高科技企业。公司凭借雄厚的研发实力,强大的产品竞争力,丰富的市场资源,跻身于国内最具品牌化、规模化的人工智能企业。 二、旷视科技 旷视科技是国内最早进行人工智能技术落地应用的企业,是这个行业的领跑者。旷视围绕AI+IoT的业务逻辑致力于推动行业赋能,用人工智能技术改造传统产业,使之具有可持续发展的能力,帮助国家度过经济转型的攻坚阶段。 三、商汤科技 商汤科技在今年完成了高达六亿美元的融资,作为人工智能领域具有代表性的独角兽公司,商汤主推的产品有包括SenseFace人脸布控系统、SenseID身份验证解决方案、SenseGo智慧商业解决方案、SensePhoto手机全套影像处理解决方案、以及SenseAR增强现实感特效引擎等。 在创立的最初两年

入门机器(深度)学习的书籍及学习资料推荐

匿名 (未验证) 提交于 2019-12-03 00:41:02
(第一次写博客,如有什么地方写得不对的,或者意见相左的,还请见谅!) 工作了一段时间,又重新回来读书(本科计算机专业,第一个研究生是商科,现读回了计算机专业)了,最开始想着走APP研发路线的,但是最终回来读书之后却恰好碰上了so-called人工智能,所以就决定将专业设定为数据分析(Data Analytics),主要学习的课程方向是数据可视化分析,机器学习和深度学习等课程。刚回来读书那会,太多不适应,特别是要重新捡回很多编程的知识和技能是一件挺艰辛的事。当初辞职那会准备相关的编程技能主要事针对网站和APP的开发,比较前端,所以辞职到正式入学的时候大部分时间都在学习前端的东西,这导致了我入学之后选择AI相关的课程碰到了编程的另外一个问题,从而不得不边学边做课程项目和实验。 重点来了:所以写下这篇文章,给出一些想学习机器学习相关的建议,希望能帮助想入门的人。文章会主要从三方面来给出建议: 书籍的推荐 视频及课程推荐 其他资源,如论文等 我在边学边做项目着实走了不少弯路,有时候浪费了不少时间,做了很多无用功,所以从以上方面选取一些方面我觉得综合运用能帮助到希望入门机器学习的人。 一、 书籍推荐 一本好的书能很好的帮助你快速的学会一些基本的知识及应用,以下书籍是我入门机器学习觉得比较有用的。 1.1 Python编程 从入门到实践 对于那些学过python的人并且是大牛

经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)(转载)

匿名 (未验证) 提交于 2019-12-03 00:40:02
经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了) 今天给大家介绍一下经典的开源机器学习软件: 编程语言:搞实验个人认为当然matlab最灵活了(但是正版很贵),但是更为前途的是python(numpy+scipy+matplotlib)和C/C++,这样组合既可搞研究,也可搞商业开发,易用性不比matlab差,功能组合更为强大,个人认为,当然R和java也不错. 1.机器学习开源软件网(收录了各种机器学习的各种编程语言学术与商业的开源软件) http://mloss.org 2 偶尔找到的机器学习资源网:(也非常全,1和2基本收录了所有ML的经典开源软件了) http://www.dmoz.org/Computers/Artificial_Intelligence/Machine_Learning/Software/ 3 libsvm (支持向量机界最牛的,不用多说了,台湾大学的林教授的杰作) http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 4 WEKA (基于java的机器学习算法最全面最易用的开源软件) http://www.cs.waikato.ac.nz/ml/ weka / 5 scikit (本人最喜欢的一个基于python的机器学习软件,代码写得非常好,而且官方的文档非常全

【机器学习】决策树(下)――CART算法及剪枝处理

匿名 (未验证) 提交于 2019-12-03 00:40:02
原文地址https://blog.csdn.net/HerosOfEarth/article/details/52425952 前言 :上篇博文已经介绍了ID3、C4.5生成决策树的算法。由于上文使用的测试数据以及建立的模型都比较简单,所以其泛化能力很好。但是,当训练数据量很大的时候,建立的决策树模型往往非常复杂,树的深度很大。此时虽然对训练数据拟合得很好,但是其泛化能力即预测新数据的能力并不一定很好,也就是出现了过拟合现象。这个时候我们就需要对决策树进行剪枝处理以简化模型。另外,CART算法也可用于建立回归树。本文先承接上文介绍完整分类决策树,再简单介绍回归树。 四、CART算法 CART,即分类与回归树(classification and regression tree),也是一种应用很广泛的决策树学习方法。但是CART算法比较强大,既可用作分类树,也可以用作回归树。作为分类树时,其本质与ID3、C4.5并有多大区别,只是选择特征的依据不同而已。另外,CART算法建立的决策树一般是二叉树,即特征值只有yes or no的情况(个人认为并不是绝对的,只是看实际需要)。当CART用作回归树时,以最小平方误差作为划分样本的依据。 1.分类树 (1)基尼指数 分类树采用基尼指数选择最优特征 。假设有 K K 个类,样本点属于第 k k 类的概率为 p k pk

机器学习与量化交易项目班视频

匿名 (未验证) 提交于 2019-12-03 00:38:01
机器学习和程序化交易系统是目前量化交易的主流手段,这门课将会从零起步介绍量化交易的方方面面,并且手把手教你从零开始搭建一个能work、能run起来的事件驱动型的量化交易平台/自动交易系统,通过项目把相关知识点串起来,不但技能提升可更快,而且随着项目经验的增长,对于求职/跳槽涨薪也有极大的帮助。 上课语言 这门课将会以python语言为主,搭建一个纯python的mini实验平台。虽然目前市面上已经存在了诸如quantopian等在线回测的服务,但是从零开始搭建一个五脏俱全的小平台,对深入理解整个流程,具有非常重要的意义。(回想一下学习程序语言的时候,我们会被要求写一个简单的解释器,写解释器的目的不是真正使用,而是深入理解)。此外,我们会利用python社区丰富的库,进行数据从提取到建模到执行的方法面面,和其他语言相比,python易于编程和维护,其简洁性亦有助于理解背后的ideas,基于此,本课程的主要语言是python。 预备基础 一定的Python数据分析基础 本文转载自: http://www.javaxxz.com/thread-354043-1-1.html 文章来源: 机器学习与量化交易项目班视频

谷歌机器学习速成课程学习笔记

匿名 (未验证) 提交于 2019-12-03 00:37:01
framing tensorflow pandas framing 标签:我们要预测的真实事物:y 基本线性回归中的y变量 特征:描述数据的输入变量: x i x i 基本线性回归中的 { x 1 、 x 2 、 x 3 } { x 1 、 x 2 、 x 3 } 变量 样本:数据的特定实例: x x 有标签样本:<特征,标签>;(x, y) 用于训练模型 无标签样本 <特征,?>:(x,?) 用于对新数据做出预测 模型:可以将样本映射到预测标签: y ′ y ′ 预测由模型内部参数定义,这些内部参数是通过学习得到的 合适的特征应该是具体且可以量化的。 漂不漂亮等无法量化,太主观,能否转化为其他具体特征。比如鞋子的颜色、样式等具体的方面。 b b (bias)在有的机器学习教材中也写做 w 0 w 0 损失函数: 均方误差MSE: M S E = 1 N ∑ ( x , y ∈ D ) ( y p r e d i c t i o n ( x ) ) 2 M S E = 1 N ∑ ( x , y ∈ D ) ( y p r e d i c t i o n ( x ) ) 2 除了MSE作为损失函数,也 有其他损失函数 ,MSE不是唯一的, 也不是适用于所有情形的最佳损失函数 神经网络非凸,落到哪个最小值很大程度上取决于初始值 小批量随机梯度下降法 tensorflow 结构: 分为