python机器学习 | 易学教程

达到年薪 40W 必需掌握的技术

阅读更多关于达到年薪 40W 必需掌握的技术

很多人在问我，程序员如何拿高薪，如何做到年薪40W+，其实总结出来还是一句话，你的技术决定你的能力已经薪资。那么什么样的技术人才才能拿到一份Java行业里面的高薪呢？下面是我的一个总结技术。必需掌握的 Java 技术知识点掌握Java编程语言，包含io/nio/socket/multi threads/collection/concurrency等功能的使用；熟练掌握jvm（sun hotspot和ibm j9）内存模型、gc垃圾回收调优等技能；精通JVM,JMM,MVC架构，熟练使用struts2。熟练使用spring、struts、ibatis构建应用系统。熟练使用Servlet，jsp，freemark等前端技术。熟练使用axis搭建基于SOAP协议的WebService服务接口。熟练使用MAVEN构建项目工程。熟练使用tomcat等web服务。熟练使用mysql等关系型数据库，熟悉mysql集群搭建。熟练使用redis等NOSQL技术。熟悉tcp、http协议。熟悉nginx、haproxy等配置。熟悉javascript、ajax等技术。熟悉主流分布式文件系统FastDFS等。熟悉JMS，可熟练使用ActiveMQ。底层计算机理解内存管理/数据挖掘系统可靠性和可用性如何理解~ jsp和sever lap对比数据库到界面，字符集转化

机器学习项目步骤总结2

阅读更多关于机器学习项目步骤总结2

文章结构：文章会解释每一步的作用，最后会贴出全部python代码，本文的数据下载地址：这里写链接内容一、读取数据（原始数据）读取数据可以看做数据收集，原始数据的状态。这里是csv文件，具体读取方式有很多，这里采用pandas的方法。 def opencsv () : # 使用pandas打开 data = pd.read_csv( 'data/train.csv' ) data1 = pd.read_csv( 'data/test.csv' ) train_x = data.values[ 0 :, 1 :] # 读入全部训练数据 train_y = data.values[ 0 :, 0 ] result_x = data1.values[ 0 :, 0 :] # 测试全部测试个数据 return train_x, train_y, result_x 二、数据预处理数据预处理处理是对数据提前进行处理和修正。常用的是：降维、空值、one-hot转换、归一化。三、交叉验证数据划分（注意：交叉验证会改变数据顺序，若原始数据对你有用，可以先进行交叉验证，在进行降维等预处理，接下来会演示） def data_pro (x,y) : x_train, x_test, y_train, y_test = train_test_split(x, y,test_size= 0.1

机器学习环境搭建笔记

阅读更多关于机器学习环境搭建笔记

搭建一个新环境，具体过程记录如下：机器环境 Linux nginx1 2.6.32-431.el6.x86_64 #1 SMP Sun Nov 10 22:19:54 EST 2013 x86_64 x86_64 x86_64 GNU/Linux 简单起见，所有操作使用root，仅使用学习或实验环境。第一部分：python环境一注意事项一般默认会安装Python2，如果本机安装了python2，尽量不要管他，使用python3运行python脚本就好，因为可能有程序依赖目前的python2环境，比如yum！！！！！不要动现有的python2环境！二安装python3.6.5 1.下载Python3 https://www.python.org/downloads/ 下载下来的文件是 Python-3.6.5.tar.xz 2. 解包编译安装（自带包含pip3） cd / opt / install xz - d Python - 3.6 . 5.tar . xz tar - xvf Python - 3.6 . 5.tar cd Python - 3.6 . 5 mkdir - p / usr / local / python3 ./ configure -- prefix = /usr/ local / python3 make make install ln

机器学习小白（三）――TensorFlow安装

阅读更多关于机器学习小白（三）――TensorFlow安装

官网 https://www.tensorflow.org/ ，可以直接参考：官方安装教程，就懒得搬运了。不过需要自备梯子，没有的可以看后文。（2018.05.24版）本人是GeForce GTX 960M的渣笔记本显卡，算是刚够到gpu版本的及格线上。目前安装的是1.8.0TensorFlow的gpu版本。不同版本对cuda和cudnn版本要求不一样，坑爹的是兼容性感觉不怎么样，最好是按官方要求的版本。操作系统上官网是这么写的，需要符合的操作系统我们已在如下配置的 64 位笔记本电脑/台式机操作系统中构建并测试过 TensorFlow： MacOS X 10.11 (El Capitan) 或更高版本 Ubuntu 16.04 或更高版本 Windows 7 或更高版本也许您能在其他笔记本电脑或台式机系统上安装 TensorFlow，但我们只支持上述配置（且只会修复这些配置中的问题）。可以仅仅安装CPU版本的，也可以安装gpu版本的。如果硬件支持的话，建议装gpu版本的，速度差很多。您必须从以下 TensorFlow 类型中选择其一来进行安装：仅支持 CPU 的 TensorFlow。安装gpu版本的要麻烦很多，要求如下：运行支持 GPU 的 TensorFlow 所需满足的要求如果您要使用本指南描述的其中一种方式安装支持 GPU 的 TensorFlow

机器学习K-Means使用报错TypeError: unsupported operand type(s) for -: 'map' and 'map'

阅读更多关于机器学习K-Means使用报错TypeError: unsupported operand type(s) for -: 'map' and 'map'

最近使用kmeans做一个二维数据点的聚类，发现网上的代码，要么是自己写的，各种报错，连个txt文件都读取出错，当然这里不排除可能有python版本的原因，要么是sklearn进行调包的，当然这一点，也可以去网上找到一堆例子，但是很少讲很详细的，能够拿来即用的。本文便是使用网上某博客的代码，是手写的，但是会报这个错 TypeError: unsupported operand type(s) for -: 'map' and 'map' ，以及对应的解决办法。 TypeError: unsupported operand type(s) for -: ‘map’ and ‘map’ 书中源代码如下： from numpy import * def loadDataSet ( fileName ): dataMat = [] fr = open ( fileName ) for line in fr . readlines (): curLine = line . strip (). split ( '\t' ) fltLine = map ( float , curLine ) dataMat . append ( fltLine ) return dataMat def distEclud ( vecA , vecB ): return sqrt ( sum ( power (

机器学习经常用到的函数（特征工程，参数选择，评估值等）

阅读更多关于机器学习经常用到的函数（特征工程，参数选择，评估值等）

一：生成数据 1. make_blobs(from sklearn.datasets.samples_generator import make_blobs): 　　用于生成训练样本， https://www.jianshu.com/p/069d8841bd8e 2.make_circles(from sklearn.datasets.samples_generator import make_circles): 　　生成圆形样本，其中factor参数为内圆与外圆的半径之比。 2. contour:画等高线（在matplotlib中) 3. meshgrid(在numpy)：生成坐标网格。 4. 用以下的方法可以画3维图形 from mpl_toolkits import mplot3d r = np . exp (-( X ** 2 ). sum ( 1 )) def plot3d ( X , y ): ax = plt . subplot ( projection = '3d' ) ax . scatter3D ( X [:, 0 ], X [:, 1 ], r , c = y ) ax . set_xlabel ( "x" ) ax . set_ylabel ( "y" ) ax . set_zlabel ( "z" ) plot3d ( X , y ) 5.

对比《Spark机器学习第2版》PDF中英文代码+《白话机器学习算法》中英文PDF+数据来源

阅读更多关于对比《Spark机器学习第2版》PDF中英文代码+《白话机器学习算法》中英文PDF+数据来源

Spark是一个新的分布式计算框架，提供简洁明了的函数式API，完全兼容Hadoop生态系统。Spark自带一个支持分布式机器学习和包含若干数据挖掘模型的工具包Spark MLlib。该工具包正在重点开发中，但已包括多个针对常见机器学习任务的高质量、可扩展的算法。《Spark机器学习第2版》结合案例研究讲解Spark 在机器学习中的应用，并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、降维等经典机器学习算法及其实际应用。新增了有关机器学习数学基础以及Spark ML Pipeline API 的章节，内容更加系统、全面、与时俱进。《Spark机器学习第2版》中文PDF，394页，带目录，文字可复制；英文PDF，彩色配图，带目录，文字可复制。配套源代码。下载: https://pan.baidu.com/s/13xNOave5kVDPqFvZHDNqJw 提取码: 7i43 Spark构建推荐引擎”展示了如何创建一个基于协同过滤的推荐模型。该模型将用于向给定用户推荐物品，以及创建与给定物品相似的物品清单。这一章还会讲到如何使用标准指标来评估推荐模型的效果。Spark构建分类模型阐述如何创建二元分类模型，以及如何利用标准的性能评估指标来评估分类效果。Spark构建回归模型”扩展了第6章中的分类模型以创建一个回归模型，并详细介绍了回归模型的评估指标

机器学习算法常用指标总结

阅读更多关于机器学习算法常用指标总结

机器学习性能评价标准是模型优化的前提，在设计机器学习算法过程中，不同的问题需要用到不同的评价标准，本文对机器学习算法常用指标进行了总结。阅读目录 1. TPR、FPR&TNR 2. 精确率Precision、召回率Recall和F1值 3. 综合评价指标F-measure 4. ROC曲线和AUC 5. 参考内容　　考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预测成负类，称之为真负类（True negative）,正类被预测成负类则为假负类（false negative）。　　TP：正确肯定的数目；　　FN：漏报，没有正确找到的匹配的数目；　　FP：误报，给出的匹配是不正确的；　　TN：正确拒绝的非匹配对数；　　列联表如下表所示，1代表正类，0代表负类： 1. TPR、FPR&TNR 　　从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR) , 计算公式为刻画的是分类器所识别出的正实例占所有正实例的比例。　　另外一个是 ,计算公式为 FPR = FP / (FP + TN)

MNIST机器学习入门(一)

阅读更多关于 MNIST机器学习入门(一)

一、简介　　首先介绍MNIST 数据集。如图1-1 所示， MNIST 数据集主要由一些手写数字的图片和相应的标签组成，图片一共有10 类，分别对应从0～9 ，共10 个阿拉伯数字。　　　　原始的MNIST 数据库一共包含下面4 个文件，见表1-1 。　　　　在表1 - 1 中，图像数据是指很多张手写字符的图像，图像的标签是指每一张图像实际对应的数字是几，也就是说，在MNIST 数据集中的每一张图像都事先标明了对应的数字。在MNIST 数据集中有两类图像：一类是训练图像（对应文件train-images-idx3-ubyte.gz 和train - labels-idx1-ubyte.gz ），另一类是测试图像（对应文件t10k-images-idx3-ubyte.gz 和t10k-labels-idx1-ubyte.gz ）。训练图像一共有60000 张，供研究人员训练出合适的模型。测试图像一共有10000 张，供研究人员测试训练的模型的性能。在TensorFlow 中，可以使用下面的Python 代码下载MNIST 数据（在随书附赠的代码中，该代码对应的文件是donwload.py ）。 # 从tensorflow.examples.tutorials.mnist引入模块。这是TensorFlow为了教学MNIST而提前编制的程序 from

微软开源可解释机器学习框架 interpret 学习实践

阅读更多关于微软开源可解释机器学习框架 interpret 学习实践

机器学习、深度学习往往给人一种黑盒的感觉，也就是它所表现出来的可解释性程度不高或者是很低，这就给学习使用带来了影响，如果能够对于机器学习的结果进行更好的解释那将会是很棒的。今天基于微软开源的可解释机器学习框架interpret进行简单的学习实践，主要是想上手我刚刚配置好的jupyter环境来跑一波代码，下面先给出来GitHub地址，在这里。使用基本的要求是python版本需要在3.5以上，在这里我正好使用的是3.6和kernel来进行实验的。 interpret的安装很简单，命令如下： pip install numpy scipy pyscaffold pip install -U interpret 安装方法虽然简单，但是安装的过程我个人觉得是比较漫长的，可能是我本地很多依赖的包版本比较低的缘故吧，在安装的过程中有10几个包都被卸载然后重新安装了新的版本了。安装结束后我们就开始进行简单的实践【以波士顿房价数据为例】：首先对数据集进行简单的探索可视化：结果如下：我们可以从summary的下拉框中选择不同的属性进行展示：比如：这里我们选择第一个，结果如下：接下来导入回归模型：查看一下全局可解释性：同样可以在下拉框中选择不同的信息进行查看，这里同样以第一个为例进行说明如下：接下来查看一下局部的解释性：我个人觉得这里还是很重要的

订阅 python机器学习