Scikit-Learn机器学习入门
现在最常用的数据分析的编程语言为R和Python。每种语言都有自己的特点,Python因为Scikit-Learn库赢得了优势。Scikit-Learn有完整的文档,并实现很多机器学习算法,而每种算法使用的接口几乎相同,可以非常快的测试其它学习算法。 Pandas一般和Scikit-Learn配合使用,它是基于Numpy构建的含有更高级数据结构和工具的数据统计工具,可以把它当成excel。 加载数据 首先把数据加载到内存。下载UCI数据集: 1 2 3 4 5 6 7 8 9 10 11 import numpy as np import urllib # 数据集的url url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data" # 下载文件 raw_data = urllib . urlopen ( url ) # 把数据加载到numpy matrix dataset = np . loadtxt ( raw_data , delimiter = "," ) # 分离数据集 X = dataset [ : , 0 : 7 ] # 属性集 y = dataset [ : , 8 ] # 标签 数据标准化