python机器学习

通过机器学习的线性回归算法预测股票走势(用Python实现)

岁酱吖の 提交于 2019-12-01 21:59:43
在本人的新书里,将通过股票案例讲述Python知识点,让大家在学习Python的同时还能掌握相关的股票知识,所谓一举两得。这里给出以线性回归算法预测股票的案例,以此讲述通过Python的sklearn库实现线性回归预测的技巧。 本文先讲以波士顿房价数据为例,讲述线性回归预测模型的搭建方式,随后将再这个基础上,讲述以线性预测模型预测股票的实现代码。本博文是从本人的新书里摘取的,新书预计今年年底前出版,敬请大家关注。 正文开始(长文预警) ------------------------------------------------------------------------------------------------------------------------------------------------------ 1 波士顿房价数据分析 安装好Python的Sklearn库后,在安装包下的路径中就能看到描述波士顿房价的csv文件,具体路径是“python安装路径\Lib\site-packages\sklearn\datasets\data”,在这个目录中还包含了Sklearn库会用到的其他数据文件,本节用到的是包含在boston_house_prices.csv文件中的波士顿房价信息。打开这个文件,可以看到如图所示的数据。

从机器学习到深度学习资料整理

青春壹個敷衍的年華 提交于 2019-12-01 16:16:35
从机器学习到深度学习资料整理    在过去的大半年中,博主一直在进行人工智能相关知识的自学。由于人工智能最近两年的火热,从网上能够找到非常多的资料,包括:MOOC、博客等,博主也花费了很多的时间从众多的资源中找到了一条“从入门到进阶”的学习之路。在此,博主根据自己的学习体验,将所用到的资料汇总在本片博文中。由于博主目前的研究对象主要是图像,因此在材料选择的过程中会重点关注图像方面的知识,但是博主在下文中所推荐的资料中也涵盖了关于文本、语音处理的内容,读者可以根据自己的需要选择性阅读。 一、入门资料   (1)吴恩达《机器学习》(网易云课堂)   入门学习的首选,课程全面介绍了机器学习的基础知识,很少涉及到高深的理论或者证明,通过学习这个课程可以帮助初学者快速掌握机器学习的经典算法,并且获得对机器学习相关技术的全面认识。吴老师在授课的时候使用的是matlab(octave),并且课程还有相应的练习(可在网络上面找到)。所配套的练习通过指导编程实践一步步地教初学者完成课程中相关的算法,完成该练习可进一步加深学习者对机器学习基础知识的认识。博主感觉该课程非常适合作为初学者的首选课程。   (2)斯坦福大学 CS231 Convolutional Neural Networks for Visual Recognition 课程   由斯坦福大学李飞飞课题组开设的关于深度学习

【机器学习】Windows +Anaconda3(python3.5)+opencv3.4.1 安装(2)

守給你的承諾、 提交于 2019-12-01 15:58:28
Windows +Anaconda3(python3.5)+opencv3.4.1 安装(2) 原文参考: https://www.cnblogs.com/aloiswei/p/6510355.html anaconda安装tensorflow python环境:win10 64下anaconda3(python3.5)。 安装tensorflow过程是在Anaconda Prompt中进行安装 1: 打开Anaconda Prompt   在安装之前,说几个关于conda的小命令    conda list :可以显示已经安装好的库。    conda install 库名 :可以直接安装想要的库。如:conda install tensorflow    conda update 库名:升级库   在Anaconda Navigator的 Environments 中就可以直接显示已经安装的库和未安装的,也可以进行库的升级以及安装新的库。 倘若上述方法在你的电脑安装不成功,可以采取下面的方式进行指定安装。    2.首先,直接输入 conda install tensorflow 出现错误(不知为何)。 3.然后根据提示输入: anaconda search -t conda tensorflow 这里( anaconda search -t conda 库名

机器学习-新(目录)

点点圈 提交于 2019-12-01 12:49:48
01部分 机器学习基础 01-01 机器学习 02部分 监督学习 02-01 感知机 02-02 感知机原始形式(鸢尾花分类) 02-03 感知机对偶形式(鸢尾花分类) 02-04 线性回归 02-05 scikit-learn库之线性回归 02-06 普通线性回归(波斯顿房价预测)+特征选择 02-07 多元线性回归(波士顿房价预测) 02-08 多项式回归(波士顿房价预测) 02-09 对数线性回归(波士顿房价预测) 02-10 正则化线性回归(波士顿房价预测) 02-11 RANSAC算法线性回归(波斯顿房价预测) 02-12 Logistic(逻辑)回归 02-13 Softmax回归 02-14 scikit-learn库之逻辑回归 02-15 Logistic回归(鸢尾花分类) 02-16 k近邻算法 02-17 kd树 02-18 scikit-learn库之k近邻算法 02-19 k近邻算法(鸢尾花分类) 02-20 kd树(鸢尾花分类) 02-21 决策树ID3算法 02-22 决策树C4.5算法 02-23 决策树CART算法 02-24 决策树总结 02-25 scikit-learn库之决策树 02-26 决策树(鸢尾花分类) 02-27 朴素贝叶斯 02-28 scikit-learn库之线朴素贝叶斯 02-29 朴素贝叶斯(垃圾邮件分类) 02-30

01-01 机器学习

大城市里の小女人 提交于 2019-12-01 12:47:54
目录 机器学习 一、学习目标 二、人工智能 三、机器学习 3.1 机器学习基本术语 四、深度学习 五、机器学习分类 5.1 监督学习 5.1.1 回归问题 5.1.2 分类问题 5.2 无监督学习 5.2.1 聚类 5.3 半监督学习 5.4 强化学习 六、Python语言的优势 七、小结 更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你: https://www.cnblogs.com/nickchen121/ 机器学习 可能有很多同学想到高大上的人工智能、机器学习和深度学习,会在怀疑我是否能学会。在自我怀疑之前,我希望你能考虑一个问题,你了解机动车的构造原理吗?难道你不了解机动车的构造就不能开车了吗?我们的机器学习也是如此,你只要拿到一张“驾驶证”,你就能很好的应用它,并且能通过本文的学习,快速的为公司、为企业直接创造价值。 机器学习已经不知不觉的走入了我们的生活,我们可能无法干涉它的崛起,也可能无法创建如十大算法一样的算法。但现如今生活的方方面面都有着机器学习的身影,为什么我们不试着去认识它呢,让我们能在机器学习彻底降临之前做好驾驭它的准备呢? 一、学习目标 了解人工智能、机器学习和深度学习之间的区别 掌握机器学习中的监督学习和无监督学习问题 二、人工智能 人工智能(artificial intelligence, AI):

在进行机器学习建模时,为什么需要验证集(validation set)?

偶尔善良 提交于 2019-12-01 12:03:40
在进行机器学习建模时,为什么需要评估集(validation set)?   笔者最近有一篇文章被拒了,其中有一位审稿人提到论文中的一个问题:”应该在验证集上面调整参数,而不是在测试集“。笔者有些不明白为什么除了训练集、测试集之外,还需要额外划分一个验证集。经过查找资料,在《Deep Learning with Python》这本书上面我发现了比较好的解释,于是将这部分内容摘录在本博文中,并且翻译为中文。   下文摘自《Deep Learning with Python》4.2小节,翻译如下:   不在同样的数据上面验证模型的原因显然在于:在几轮训练之后,模型就会过拟合。即,相较于模型在训练数据上一直在变好的表现,模型在新样本上的表现会在某一时刻开始变差。   机器学习的目的是构造有很强泛化能力—在新样本上有着良好的表现—的模型,而过拟合是我们需要重点解决的问题。这一小节,我们将会聚焦于如何去衡量模型的泛化能力:如何去评估模型。    训练集、验证集和测试集    评估模型的重点在于将可用数据还分为三个部分:训练集(training set)、验证集(validation set)和测试集(test set)。在训练集上面训练模型,并且在验证集上面评估模型。一旦模型被准备好,最后就在测试集上面测试模型。   为什么不直接使用两个数据集:一个训练集和一个测试集

手把手教你把Python应用到实际开发 不再空谈语学习 教程

强颜欢笑 提交于 2019-12-01 11:47:39
手把手教你把 Python应用到实际开发 不再空谈语法学习 教程 想用python做机器学习吗,是不是在为从哪开始挠头? 这里我假定你是新手,这篇文章里咱们一起用Python完成第一个机器学习项目。 我会手把手教你以下内容: 下载python,numpy,SciPy之类软件并安装,这些是python里机器学习方面最有用的软件包。 加载一个数据集,通过统计摘要(statistical summaries)和数据可视化来了解数据集的结构。 创建6个机器学习模型,选择这里边最好的,然后介绍通过何种方法来确定选出来的模型预测时有稳定的准确率。 如果你是机器学习的初学者,并且你下定决心用python作为开始机器学习的语言的话,这篇文章应该会比较适合你。 刚开始的时候,Python看起来有点吓人 Python是一种很流行,很强大的解释型语言。跟R不一样,对于研究,开发以及完成生产系统来说,python是一个完整的开发语言,一个完整的平台。 Python中也有许多可供选择的模块和库,对于上面说的研究,开发和完成生产系统提供了多种实现的路径。给人的感觉是python的前景势不可挡。 再次重申,用Python学习机器学习的最好方法是完成一个完整的项目。 这样做强制你安装Python,并且启动python的解释器(最少会这样)。 这样做能给你一个整体审视的机会,体验如何一步步完成一个小项目。

机器学习建模老司机的几点思考与总结

青春壹個敷衍的年華 提交于 2019-12-01 06:11:10
机器学习现在在很多地方都是十分流行,无论现在的你是否从事建模工作,还是你将来想从事相关工作,对于从业者可以从中看出一些同感与意见,对于未来从业者可以了解这个职业到底是做些什么。 话不多说,一个机器学习模型的开发周期一般可以分为: 1、业务需求挖掘(Business insight) 2、数据搜集处理(Data Curation) 3、模型训练开发(Modeling) 4、部署及测试上线(Deployment) 5、模型闭环监控及继续优化(Feedback & Improvement) 本文也是按照这个结构来进行展开总结与思考。 01 业务需求挖掘(Business insight) 当我们接到业务需求的时候,第一件事情需要了解的,就是需求的整体逻辑。一个合理的产品设计通常都是与业务痛点相挂钩的。如果业务提出一个比较空泛的需求,如: 我想要提高一下营销成功率,帮我搞个模型吧。 这个时候,我们需要沉住气,,有的时候数据建模师也需要充当起“心理辅导员”,慢慢引导业务说出实际的业务痛点与需求,好让我们对症下药(当然靠谱且有经验的业务是不会犯这种行为的)。在经过若干分钟的业务了解,其实业务真正想提高的,是 最后的审批通过率 ,而继续了解,发现是由于最近业务的增长,电销人员的人手不足,导致审批的效率低下,而真正有意愿购买产品的客户被营销的可能性降低,导致最终的整体转换率过低。 了解过后

史上最全的机器学习资料(上)

情到浓时终转凉″ 提交于 2019-12-01 06:00:33
摘要: 机器学习牵涉的编程语言十分之广,包括了MATLAB、Python、Clojure、Ruby等等。为了让开发者更加广泛、深入地了解机器学习,云栖社区组织翻译了GitHub Awesome Machine Learning 资源,涵盖24种编程语言的机器学习的框架、库以及其他相关资料。 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习牵涉的编程语言十分之广,包括了MATLAB、Julia、R、Perl、Python、Clojure、Ruby等等。 为了让开发者更加广泛、深入地了解机器学习,云栖社区组织翻译了GitHub Awesome Machine Learning 资源,涵盖24种编程语言的机器学习的框架、库以及其他相关资料。 目录 C 通用机器学习 计算机视觉 C++ 计算机视觉 通用机器学习 自然语言处理 序列分析 手势识别 Common Lisp 通用机器学习 Clojure 自然语言处理 通用机器学习 数据分析 /数据可视化 Erlang 通用机器学习 Go 自然语言处理 通用机器学习 数据分析 /数据可视化 Haskell 通用机器学习 Java 自然语言处理

01-机器学习概述

|▌冷眼眸甩不掉的悲伤 提交于 2019-12-01 02:23:26
机器学习不仅仅是一种简单的算法,还可以将其放在其他任何地方以获得奇妙的结果。机器学习是一个从定义数据开始,最终获得一定准确率的模型的过程。在本节中,我们将学习这个过程。 1.1.1. 问题定义 机器学习的过程从定义一个商业问题开始。机器学习的需求是什么?这个任务真的需要高级的预测算法来解决吗? 问题定义是非常重要的,它提供了更正式地思考解决方案的方向。它基本上处理两个问题。 A.问题是什么? 这个问题涵盖了问题的定义,并使问题变得更加正式。假设我们想要确认图像中是否包含人。 现在定义这个任务,将其分为任务(T)、经验(E)和性能(P)。 任务(T):根据图像中是否包含人对图像进行分类。 经验(E):带有是否包含人的标签的图像。 性能(P):错误率。在所有的分类图像中,错误预测的百分比是多少。错误率越低,准确率越高。 B.为什么这个问题需要解决方案? 这个问题更侧重于商业方面,它包括解决问题的动机和益处。 假如你是一个研究者,希望解决某个问题并发表论文,使之成为他人解决问题的基准,这可能就是你的动机。 关于你的问题其他需要确定的是,在没有安全措施的情况下,夜间在银行的自动取款机上是否有人类活动(假设所要解决的问题与自动取款机的安全有关)。 还需要定义可以使用此解决方案的场景。这是一个通用型的解决方案,还是为特定任务(ATM传感器中的检测人员)所设计的呢?解决方案的失效日期是什么时候