机器学习8:决策树ID3
决策树ID3 原理 熵 (entropy)概念–衡量不确定性的大小 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,或者是我们一无所知的事情,需要了解大量信息->信息量的度量就 等于不确定性的多少。 信息熵的计算 ID3算法 C4.5算法 算法实现 from sklearn . feature_extraction import DictVectorizer from sklearn import tree from sklearn import preprocessing import csv import numpy as np # 读入数据 Dtree = open ( r 'AllElectronics.csv' , 'r' ) reader = csv . reader ( Dtree ) # 获取第一行数据 headers = reader . __next__ ( ) print ( headers ) # 定义两个列表 featureList = [ ] labelList = [ ] for row in reader : # 把label存入list labelList . append ( row [ - 1 ] ) rowDict = { } for i in range ( 1 , len ( row ) - 1 ) :