python机器学习

机器学习最后一周-总结

一世执手 提交于 2019-12-27 16:38:57
前言 N个月前,加了木东居士的数据分析群,日常划水,听大佬发言 2.25个月前,加了木东居士组织的统计学小组,星空妹子考勤,DD出笔记干货 2个月前,加了木东居士组织的机器学习小组,饼干大佬写的干货不干系列推文 感受 系统学习路线+自主学习笔记打卡+可退还报名费机制,有一定的约束影响力,学习效果还不错,记得有一晚奋战到了23:58,才最终提交打卡作业,相当不容易,熬夜伤身体。其他就是感觉学习小组讨论沟通的气氛不够,也可能是像我这种么有很多问题不懂没有问,怕问出来显得太傻或是成为伸手党的即视感。 统计学 万事开头难,记得第一周的图表作业(显示约3个小时),可能我的excel技巧比较差,透视图和箱线图照着例题我都找不到在哪里创建,实际约折腾了一天,虽然做的很糟心,努力给自己灌了一口鸡汤(做难事必有所得),接下去的作业大约是按照理论+实践的方式,慢慢接受ing。其实很多涉及的小知识点在大学高数和概率论都有,但捡起来的过程,一度怀疑自己智商最高点在大学,之后是在慢慢下滑。在实践阶段的时候,python的要求也比较高,本来想着事半功倍先学好python再整统计,工作一忙么,python也就落下了进度,之后再慢慢补。时间一久,难的不是坚持,而是对最初目标的迷茫,这样能成功转行吗? 机器学习 数据分析不仅对SQL和python有要求,算法也是需要的,兼并统计小组我又同时报名了机器学习

1-1 机器学习和深度学习综述

ⅰ亾dé卋堺 提交于 2019-12-26 00:33:31
人工智能\机器学习和深度学习的概念及关系 人工智能、机器学习和深度学习的概念在近些年十分火热,但很多从业者也难以说清它们之间的关系,外行人更是雾里看花。学习深度学习,需要先从三个概念的正本清源开始。 三者覆盖的技术范畴是逐层递减的,人工智能是最宽泛的概念,机器学习则是实现人工智能的一种方式,也是目前较有效的方式。深度学习是机器学习算法中最热的一个分支,在近些年取得了显著的进展,并代替了多数传统机器学习算法。所以,三者的关系可用下图表示,人工智能 > 机器学习 > 深度学习。 图1:人工智能、机器学习和深度学习三者之间的概念范围 如字面含义,人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的科学。由于这个定义只阐述了目标,而没限定方法。所以,实现人工智能存在的诸多方法和分支,导致其变成一个“大杂烩”式的学科。 与此不同,机器学习,尤其是监督学习则有更加明确的指代。机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。这句话有点“云山雾罩”的感觉,让人不知所云。 机器学习的实现步骤可以分成两步,训练和预测。这两个专业名词类似于归纳和演绎的含义。归纳是从具体案例中抽象一般规律,机器学习中的“训练”亦是如此。从一定数量的样本(已知模型输入 X X X 和模型输出 Y Y Y )中,学习出输出 Y

零基础学习Python数据分析

走远了吗. 提交于 2019-12-25 10:44:14
网上虽然有很多Python学习的教程,但是大多是围绕Python网页开发等展开。数据分析所需要的Python技能和网页开发等差别非常大,本人就是浪费了很多时间来看这些博客、书籍。所以就有了本文,希望能帮大家少走一点弯路。 -----------------我是分割线-------------- 本文章主要从数据分析、机器学习(深度学习)的目的出发, 讲讲如何零基础学习Python语法、数据分析模块(Numpy、Scipy、Scikit和Pandas等)以及使用python进行机器学习(SFrame,tensorflow)。 (今天就写个小框架吧^_^) 去年开始接触Python数据分析的学习,全是自学,所以对于广大网友来说应该有较大的借鉴意义。熟练掌握任何一门语言,几乎都需要经过以下过程: 良师--学习Python课程+入门书籍+浏览技术博客 社区帮助--善于使用搜索引擎、Mail List 益友 -- 寻找学习伙伴 Learn by Code --项目实践 一、Python学习课程推荐 这两个学习课程从最基础的Python语法开始,介绍了Python数据分析、统计模型以及机器学习的各个方面,内容十分充足。之所以建议使用老外的课程是因为,老外上课假定你什么都不会,讲解深入浅出,尤其是对于华盛顿大学的机器学习课程,把复杂的概念讲解得十分简单。 1. 密歇根大学的

机器学习经典算法具体解释及Python实现--K近邻(KNN)算法

这一生的挚爱 提交于 2019-12-24 20:51:04
(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单。最好理解的。KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离近期的邻居进行分类推断(投票法)或者回归。假设K=1。那么新数据被简单分配给其近邻的类。KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义。对于监督学习。数据都有明白的label(分类针对离散分布,回归针对连续分布),依据机器学习产生的模型能够将新数据分到一个明白的类或得到一个预測值。对于非监督学习,数据没有label。机器学习出的模型是从数据中提取出来的pattern(提取决定性特征或者聚类等)。比如聚类是机器依据学习得到的模型来推断新数据“更像”哪些原数据集合。KNN算法用于分类时,每一个训练数据都有明白的label。也能够明白的推断出新数据的label,KNN用于回归时也会依据邻居的值预測出一个明白的值,因此KNN属于监督学习。 KNN算法的过程为: 选择一种距离计算方式, 通过数据全部的特征计算新数据与已知类别数据集中的数据点的距离 依照距离递增次序进行排序。选取与当前距离最小的k个点 对于离散分类,返回k个点出现频率最多的类别作预測分类;对于回归则返回k个点的加权值作为预測值 (二)KNN算法关键

机器学习经典书籍

橙三吉。 提交于 2019-12-24 05:26:49
算法组 注册 登录 机器学习经典书籍 机器学习 machine-learning 书单 1 / 7 sys 14年12月 6 前面有一篇 机器学习经典论文/survey合集 784 。本文总结了 机器学习 100 的经典书籍,包括数学基础和算法理论的书籍。本文会保持更新,欢迎推荐。 入门书单 《数学之美》 PDF 2.2K 作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。 《Programming Collective Intelligence》(《集体智慧编程》) PDF 1.2K 作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《数据之美:解密优雅数据解决方案背后的故事》)的作者。这本书最大的优势就是里面没有理论推导和复杂的数学公式,是很不错的入门书。目前中文版已经脱销,对于有志于这个领域的人来说,英文的pdf是个不错的选择,因为后面有很多经典书的翻译都较差,只能看英文版,不如从这个入手。还有,这本书适合于快速看完,因为据评论,看完一些经典的带有数学推导的书后会发现这本书什么都没讲,只是举了很多例子而已。 《Algorithms of the Intelligent Web》(《智能web算法》) PDF 459 作者Haralambos

机器学习平台和深度学习平台

∥☆過路亽.° 提交于 2019-12-23 12:44:51
谷歌公司推出一款机器学习的平台(AutoML(可视化工具(AutoML Vision)))新推出两个功能 :自然语言处理 AutoML Natural Language                                              翻译功能 AutoML Translation 不过谷歌这款机器学习的平台是收费的(标准应该是每小时550美金) Uber公司推出一款深度学习的框架 Ludwig 对于熟悉python的我们来说 这个框架就比较简单了,适合我们学习,堪称史上最简单的深度学习框架,不需要懂编程知识,让专家能用的更顺手,让非专业人士也可以玩转人工智能。 Ludwig是一个建立在TensorFlow之上的工具箱,它允许用户在不需要编写代码的情况下训练和测试深度学习模型! 简单到什么程度?令人发指! 用户只需要提供一个包含数据的CSV文件,一个列表作为输入,一个列表作为输出,Ludwig就将为你完成其余的工作:训练、测试、可视化、分布式训练等等。 安装Ludwig就这样简单: 训练模型就一行命令: 模型预测也就一个命令: 可视化也只需一行: 当然,对于熟悉Python的用户,Ludwig也提供了非常简单易用的API: 可视化工具允许你分析模型的训练和测试性能,并对它们进行比较。 Ludwig在构建时考虑了可扩展性原则

机器学习实战:基于Scikit-Learn和TensorFlow---第二章笔记

只愿长相守 提交于 2019-12-22 01:25:14
机器学习实战:基于Scikit-Learn和TensorFlow—第二章笔记 一、学习目标 以加州住房价格的数据集作为数据源,来进行构建一个完整的机器学习的项目。 二、完整的处理流程 2.1、目标问题 拿到数据集,搭建机器学习的项目,我们肯定是希望从这个数据中分析出什么结果。所以我们的目标就是:根据数据集,对一个区域的房价中位数进行预测。你肯定知道这是一个典型的监督式学习任务(因为已经给出了标记的训练示例),而且也是一个典型的回归任务(因 为你要对某个值进行预测)。更具体地说,这是一个多变量回归问题,因为系统要使用多个特征进行预测(使用到区域的人口、收入中位数等)。 2.2、性能指标 你辛苦构建完模型后,肯定要选择一个指标来测试下你的模型到底表现如何吧。回归问题的典型性能衡量指标是均方根误差(RMSE)。 公式1-1:均方根误差(RMSE) ( ∑ i = 1 m ( h ( x i ) − y i ) 2 ) m \sqrt{\frac{(\sum_{i=1}^m(h(x^i) - y^i)^2)}{m}} m ( ∑ i = 1 m ​ ( h ( x i ) − y i ) 2 ) ​ ​ 解释下其中的符号: m是你在测量RMSE时,所使用的数据集中实例的数量(例如,如果你在评估RMSE时使用的验证集里包含2000个区域,则m=2000) x i x^i x i 是数据集中

机器学习 回归问题(线性回归 岭回归 逐步回归)

╄→尐↘猪︶ㄣ 提交于 2019-12-21 19:56:51
一.线性回归 线性回归就是将输入项分别乘以一些常量,在将结果加起来得到输出。 假定输入数据存放在矩阵 x 中,而回归系数存放在向量 w 中。 那么预测结果可以通过Y=X的转置*W得出。所以我们求解线性回归模型的核心就在于求解w,如何求呢?首先,我们一定是希望预测出来的值和实际值之间的误差越小越好,所以我们评判w好坏,就可以采用实际值与真实值之差表示,但是这个差有正有负,为了避免正负相互抵消的情况,我们采用平方误差(也就是最小二乘法) 平方误差,我们也可以叫他损失函数。我们现在就是要以w为变量求解损失函数的最小值。 我们可以对w进行求导,令其为0,可得到我们所要求解w所需的计算公式。 局部加权线性回归 线性回归的一个问题是有可能出现欠拟合现象,因为它求的是具有小均方误差的无偏估 计。显而易见,如果模型欠拟合将不能取得好的预测效果。所以有些方法允许在估计中引入一 些偏差,从而降低预测的均方误差。 其中的一个方法是局部加权线性回归。在该算法中,我们给待预测点附近的每个点赋予一定的权重;在这个子集上基于 小均方差来进行普通的回归。 局部加权线性回归的基本思想:设计代价函数时,待预测点附近的点拥有更高的权重,权重随着距离的增大而缩减——这也就是名字中“局部”和“加权”的由来。 权重如何求取: 区别在于此时的代价函数中多了一个权重函数W,这个W要保证,越靠近待测点附近权值越大

杂谈——机器学习(使用Python进行文本处理)实践感悟

两盒软妹~` 提交于 2019-12-19 06:07:34
①快速搭建并跑通模型; ②评估和优化模型; ③模型完成; 要是陷入了第一步模型搭建的路上,那么很有可能将会万劫不复掉! 分清主次关系,不要陷进微观而忘了宏观上的目标。 来源: CSDN 作者: Robin_Pi 链接: https://blog.csdn.net/Robin_Pi/article/details/103598672

想学习深度学习需要什么样的基础?

六月ゝ 毕业季﹏ 提交于 2019-12-19 01:06:03
想学习深度学习需要什么样的基础? 可以先看看本人另外一篇相关博客: 普通程序员转型AI免费教程整合,零基础也可自学 - 流风,飘然的风 - 博客园 http://www.cnblogs.com/zdz8207/p/ai-learn-resource.html 关于编程基础 只会 Java 语言,不会 C/C++/Python 能学习吗?或者学过 C/C++/Python,但是没有实际应用过,或者基础不好,是否可以学?是否有 Python 学习教程推荐?如果 C++/Python 基础比较薄弱,是否可以学? 【回答】可以。 在数据科学、大数据和机器学习(深度学习)领域,Python 被视作最为简洁和直接的脚本编程语言,被科研领域和工程领域广泛采用,因此 针对 Python 编程语言本身,跟随编程实战,在编程的过程中逐步了解。 事实上 Java 编程语言在大数据处理和机器学习领域的应用也十分广泛,其中涉及到 真实工程代码 的部分。注重于实际应用的编写,因此编程语言特性方面的门槛较低。 使用编写的实验程序,转化为实际的工业级代码和产品,将涉及 C/C++ 和 Java 代码的编写。由于 Java 在面向对象的基本结构上与 C++ 十分相似,因此这一块也应当不是问题。 通过学习不仅对整个机器学习、深度学习和分布式大数据实时处理有一个全面的认识,而且在非常实际的工程实践,将来找工作和职业发展