Python Exercise_4

六眼飞鱼酱① 提交于 2020-01-18 16:23:52

接下来是五种回归(线性模型)

用于回归的线性模型(可以理解为直线方程或者加权求和)

单一预测为一条直线,两个特征为一个平面,以此类推。线性模型对多个特征的数据集而言非常强大!

X, y = mglearn.datasets.make_forge()
mglearn.plots.plot_linear_regression_wave()

1.线性回归(普通最小二乘法)

两个参数w(权重/系数 NumPy数组) in  coef_属性 ,  b(偏移/截距 浮点数) in intercept_属性。寻找这两个参数使得均方误差(预测值与真实值之差的平方和除以样本数)最小。由于此算法没有参数,故无法控制模型复杂度。

from sklearn.linear_model import LinearRegression
X, y = mglearn.datasets.make_wave(n_samples=60)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
lr = LinearRegression().fit(X_train, y_train)
print("lr.coef_: {}".format(lr.coef_))
print("lr.intercept_: {}".format(lr.intercept_))

训练集和测试集的性能,可能存在欠拟合,因为在训练集和测试集的分数很接近。

print("Training set score: {}".format(lr.score(X_train, y_train)))
print("Test set score: {}".format(lr.score(X_test, y_test)))

接下来用更大的数据集去看LinearRegression的表现,会发现在训练集分数较高,测试集低很多。

X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
lr = LinearRegression().fit(X_train, y_train)
print("Training set score: {}".format(lr.score(X_train, y_train)))
print("Test set score: {}".format(lr.score(X_test, y_test)))

小结:

训练集和测试集分数接近:可能是欠拟合    训练集和测试集分数差异:可能是过拟合

2.岭回归(可以控制模型复杂度)

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!