python机器学习

达到年薪 40W 必需掌握的技术

匿名 (未验证) 提交于 2019-12-03 00:32:02
很多人在问我,程序员如何拿高薪,如何做到年薪40W+,其实总结出来还是一句话,你的技术决定你的能力已经薪资。 那么什么样的技术人才才能拿到一份Java行业里面的高薪呢?下面是我的一个总结技术。 必需掌握的 Java 技术知识点 掌握Java编程语言,包含io/nio/socket/multi threads/collection/concurrency等功能的使用; 熟练掌握jvm(sun hotspot和ibm j9)内存模型、gc垃圾回收调优等技能; 精通JVM,JMM,MVC架构,熟练使用struts2。 熟练使用spring、struts、ibatis构建应用系统。 熟练使用Servlet,jsp,freemark等前端技术。 熟练使用axis搭建基于SOAP协议的WebService服务接口。 熟练使用MAVEN构建项目工程。 熟练使用tomcat等web服务。 熟练使用mysql等关系型数据库,熟悉mysql集群搭建。 熟练使用redis等NOSQL技术。 熟悉tcp、http协议。 熟悉nginx、haproxy等配置。 熟悉javascript、ajax等技术。 熟悉主流分布式文件系统FastDFS等。 熟悉JMS,可熟练使用ActiveMQ。 底层计算机理解内存管理/数据挖掘系统 可靠性和可用性如何理解~ jsp和sever lap对比 数据库到界面,字符集转化

机器学习项目步骤总结2

匿名 (未验证) 提交于 2019-12-03 00:30:01
文章结构:文章会解释每一步的作用,最后会贴出全部python代码,本文的数据下载地址: 这里写链接内容 一、读取数据(原始数据) 读取数据可以看做数据收集,原始数据的状态。这里是csv文件,具体读取方式有很多,这里采用pandas的方法。 def opencsv () : # 使用pandas打开 data = pd.read_csv( 'data/train.csv' ) data1 = pd.read_csv( 'data/test.csv' ) train_x = data.values[ 0 :, 1 :] # 读入全部训练数据 train_y = data.values[ 0 :, 0 ] result_x = data1.values[ 0 :, 0 :] # 测试全部测试个数据 return train_x, train_y, result_x 二、数据预处理 数据预处理处理是对数据提前进行处理和修正。 常用的是:降维、空值、one-hot转换、归一化。 三、交叉验证数据划分 (注意:交叉验证会改变数据顺序,若原始数据对你有用,可以先进行交叉验证,在进行降维等预处理,接下来会演示) def data_pro (x,y) : x_train, x_test, y_train, y_test = train_test_split(x, y,test_size= 0.1

机器学习环境搭建笔记

匿名 (未验证) 提交于 2019-12-03 00:27:02
搭建一个新环境,具体过程记录如下: 机器环境 Linux nginx1 2.6.32-431.el6.x86_64 #1 SMP Sun Nov 10 22:19:54 EST 2013 x86_64 x86_64 x86_64 GNU/Linux 简单起见,所有操作使用root,仅使用学习或实验环境。 第一部分:python环境 一 注意事项 一般默认会安装Python2, 如果本机安装了python2,尽量不要管他,使用python3运行python脚本就好,因为可能有程序依赖目前的python2环境, 比如yum!!!!! 不要动现有的python2环境! 二 安装python3.6.5 1.下载Python3 https://www.python.org/downloads/ 下载下来的文件是 Python-3.6.5.tar.xz 2. 解包编译安装(自带包含pip3) cd / opt / install xz - d Python - 3.6 . 5.tar . xz tar - xvf Python - 3.6 . 5.tar cd Python - 3.6 . 5 mkdir - p / usr / local / python3 ./ configure -- prefix = /usr/ local / python3 make make install ln

机器学习小白(三)――TensorFlow安装

匿名 (未验证) 提交于 2019-12-03 00:19:01
官网 https://www.tensorflow.org/ ,可以直接参考:官方安装教程,就懒得搬运了。不过需要自备梯子,没有的可以看后文。 (2018.05.24版) 本人是GeForce GTX 960M的渣笔记本显卡,算是刚够到gpu版本的及格线上。目前安装的是1.8.0TensorFlow的gpu版本。不同版本对cuda和cudnn版本要求不一样,坑爹的是兼容性感觉不怎么样,最好是按官方要求的版本。 操作系统上官网是这么写的,需要符合的操作系统 我们已在如下配置的 64 位笔记本电脑/台式机操作系统中构建并测试过 TensorFlow: MacOS X 10.11 (El Capitan) 或更高版本 Ubuntu 16.04 或更高版本 Windows 7 或更高版本 也许您能在其他笔记本电脑或台式机系统上安装 TensorFlow,但我们只支持上述配置(且只会修复这些配置中的问题)。 可以仅仅安装CPU版本的,也可以安装gpu版本的。如果硬件支持的话,建议装gpu版本的,速度差很多。 您必须从以下 TensorFlow 类型中选择其一来进行安装: 仅支持 CPU 的 TensorFlow。 安装gpu版本的要麻烦很多,要求如下: 运行支持 GPU 的 TensorFlow 所需满足的要求 如果您要使用本指南描述的其中一种方式安装支持 GPU 的 TensorFlow

机器学习K-Means使用报错TypeError: unsupported operand type(s) for -: 'map' and 'map'

匿名 (未验证) 提交于 2019-12-03 00:11:01
最近使用kmeans做一个二维数据点的聚类,发现网上的代码,要么是自己写的,各种报错,连个txt文件都读取出错,当然这里不排除可能有python版本的原因,要么是sklearn进行调包的,当然这一点,也可以去网上找到一堆例子,但是很少讲很详细的,能够拿来即用的。本文便是使用网上某博客的代码,是手写的,但是会报这个错 TypeError: unsupported operand type(s) for -: 'map' and 'map' ,以及对应的解决办法。 TypeError: unsupported operand type(s) for -: ‘map’ and ‘map’ 书中源代码如下: from numpy import * def loadDataSet ( fileName ): dataMat = [] fr = open ( fileName ) for line in fr . readlines (): curLine = line . strip (). split ( '\t' ) fltLine = map ( float , curLine ) dataMat . append ( fltLine ) return dataMat def distEclud ( vecA , vecB ): return sqrt ( sum ( power (

机器学习经常用到的函数(特征工程,参数选择,评估值等)

匿名 (未验证) 提交于 2019-12-03 00:11:01
一:生成数据 1. make_blobs(from sklearn.datasets.samples_generator import make_blobs):   用于生成训练样本, https://www.jianshu.com/p/069d8841bd8e 2.make_circles(from sklearn.datasets.samples_generator import make_circles):   生成圆形样本,其中factor参数为内圆与外圆的半径之比。 2. contour:画等高线(在matplotlib中) 3. meshgrid(在numpy):生成坐标网格。 4. 用以下的方法可以画3维图形 from mpl_toolkits import mplot3d r = np . exp (-( X ** 2 ). sum ( 1 )) def plot3d ( X , y ): ax = plt . subplot ( projection = '3d' ) ax . scatter3D ( X [:, 0 ], X [:, 1 ], r , c = y ) ax . set_xlabel ( "x" ) ax . set_ylabel ( "y" ) ax . set_zlabel ( "z" ) plot3d ( X , y ) 5.

对比《Spark机器学习第2版》PDF中英文代码+《白话机器学习算法》中英文PDF+数据来源

匿名 (未验证) 提交于 2019-12-02 23:53:01
Spark是一个新的分布式计算框架,提供简洁明了的函数式API,完全兼容Hadoop生态系统。Spark自带一个支持分布式机器学习和包含若干数据挖掘模型的工具包Spark MLlib。该工具包正在重点开发中,但已包括多个针对常见机器学习任务的高质量、可扩展的算法。 《Spark机器学习第2版》结合案例研究讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、降维等经典机器学习算法及其实际应用。新增了有关机器学习数学基础以及Spark ML Pipeline API 的章节,内容更加系统、全面、与时俱进。 《Spark机器学习第2版》中文PDF,394页,带目录,文字可复制;英文PDF,彩色配图,带目录,文字可复制。配套源代码。 下载: https://pan.baidu.com/s/13xNOave5kVDPqFvZHDNqJw 提取码: 7i43 Spark构建推荐引擎”展示了如何创建一个基于协同过滤的推荐模型。该模型将用于向给定用户推荐物品,以及创建与给定物品相似的物品清单。这一章还会讲到如何使用标准指标来评估推荐模型的效果。Spark构建分类模型阐述如何创建二元分类模型,以及如何利用标准的性能评估指标来评估分类效果。Spark构建回归模型”扩展了第6章中的分类模型以创建一个回归模型,并详细介绍了回归模型的评估指标

机器学习算法常用指标总结

匿名 (未验证) 提交于 2019-12-02 23:36:01
机器学习性能评价标准是模型优化的前提,在设计机器学习算法过程中,不同的问题需要用到不同的评价标准,本文对机器学习算法常用指标进行了总结。 阅读目录 1. TPR、FPR&TNR 2. 精确率Precision、召回率Recall和F1值 3. 综合评价指标F-measure 4. ROC曲线和AUC 5. 参考内容   考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(false negative)。   TP:正确肯定的数目;   FN:漏报,没有正确找到的匹配的数目;   FP:误报,给出的匹配是不正确的;   TN:正确拒绝的非匹配对数;   列联表如下表所示,1代表正类,0代表负类: 1. TPR、FPR&TNR   从列联表引入两个新名词。其一是 真正类率(true positive rate ,TPR) , 计算公式为 刻画的是分类器所识别出的 正实例占所有正实例的比例。   另外一个是 ,计算公式为 FPR = FP / (FP + TN)

MNIST机器学习入门(一)

匿名 (未验证) 提交于 2019-12-02 23:32:01
一、简介    首先介绍MNIST 数据集。如图1-1 所示, MNIST 数据集主要由一些手写数字的图片和相应的标签组成,图片一共有10 类,分别对应从0~9 ,共10 个阿拉伯数字。      原始的MNIST 数据库一共包含下面4 个文件, 见表1-1 。       在表1 - 1 中,图像数据是指很多张手写字符的图像,图像的标签是指每一张图像实际对应的数字是几,也就是说,在MNIST 数据集中的每一张图像都事先标明了对应的数字。 在MNIST 数据集中有两类图像:一类是训练图像(对应文件train-images-idx3-ubyte.gz 和train - labels-idx1-ubyte.gz ), 另一类是测试图像(对应文件t10k-images-idx3-ubyte.gz 和t10k-labels-idx1-ubyte.gz ) 。训练图像一共有60000 张,供研究人员训练出合适的模型。测试图像一共有10000 张,供研究人员测试训练的模型的性能。在TensorFlow 中, 可以使用下面的Python 代码下载MNIST 数据(在随书附赠的代码中,该代码对应的文件是donwload.py )。 # 从tensorflow.examples.tutorials.mnist引入模块。这是TensorFlow为了教学MNIST而提前编制的程序 from

微软开源可解释机器学习框架 interpret 学习实践

人走茶凉 提交于 2019-12-02 23:12:07
机器学习、深度学习往往给人一种黑盒的感觉,也就是它所表现出来的可解释性程度不高或者是很低,这就给学习使用带来了影响,如果能够对于机器学习的结果进行更好的解释那将会是很棒的。 今天基于微软开源的可解释机器学习框架interpret进行简单的学习实践,主要是想上手我刚刚配置好的jupyter环境来跑一波代码,下面先给出来GitHub地址,在 这里 。 使用基本的要求是python版本需要在3.5以上,在这里我正好使用的是3.6和kernel来进行实验的。 interpret的安装很简单,命令如下: pip install numpy scipy pyscaffold pip install -U interpret 安装方法虽然简单,但是安装的过程我个人觉得是比较漫长的,可能是我本地很多依赖的包版本比较低的缘故吧,在安装的过程中有10几个包都被卸载然后重新安装了新的版本了。 安装结束后我们就开始进行简单的实践【以波士顿房价数据为例】: 首先对数据集进行简单的探索可视化: 结果如下: 我们可以从summary的下拉框中选择不同的属性进行展示: 比如:这里我们选择第一个,结果如下: 接下来导入回归模型: 查看一下全局可解释性: 同样可以在下拉框中选择不同的信息进行查看,这里同样以第一个为例进行说明如下: 接下来查看一下局部的解释性: 我个人觉得这里还是很重要的