8-7 偏差方差平衡

用学生的姓名来预测成绩，就会偏差很大，特征不对

knn对数据很敏感，一旦离它近的数据不合理或有问题则结果就不对，高度于依赖于样本数据

knn当使用所有样本时，即就是看哪个多就是哪个，则偏差最大，方差最小

机器学习的主要挑战，来自于方差，这是从算法的角度来说。

但对问题本身而言就不一定了，因为问题可能就很复杂，我们对其理解很肤浅。

方差可能就是学习了数据样本的噪音导致的

深度学习数据规模要足够多才可能有好的效果

8-8 模型泛化与岭回归08-Model-Regularization-and-Ridge-Regression

多项式回归过拟合的情况，有一些系数会很大，模型正则化就是限制其不要太大

很显然一些参数超级大

要考虑theta也尽可能的小，不需要theta0，它是截距，决定线的高低

限制theta的大小

alpha是新超参数，表示theta占的比重，如alpha为零则没有theta，如果为无穷大，则theta尽量小才能使目标尽可能小

这种方法又称为岭回归

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

def PolynomialRegression(degree):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("lin_reg", LinearRegression())
    ])

from sklearn.model_selection import train_test_split

np.random.seed(666)
X_train, X_test, y_train, y_test = train_test_split(X, y)


from sklearn.metrics import mean_squared_error

poly_reg = PolynomialRegression(degree=20)
poly_reg.fit(X_train, y_train)

y_poly_predict = poly_reg.predict(X_test)
mean_squared_error(y_test, y_poly_predict)

X_plot = np.linspace(-3, 3, 100).reshape(100, 1)
y_plot = poly_reg.predict(X_plot)

plt.scatter(x, y)
plt.plot(X_plot[:,0], y_plot, color='r')
plt.axis([-3, 3, 0, 6])
plt.show()

把训练的模型当成参数

def plot_model(model):
    X_plot = np.linspace(-3, 3, 100).reshape(100, 1)
    y_plot = model.predict(X_plot)

    plt.scatter(x, y)
    plt.plot(X_plot[:,0], y_plot, color='r')
    plt.axis([-3, 3, 0, 6])
    plt.show()

plot_model(poly_reg)

使用岭回归

from sklearn.linear_model import Ridge

def RidgeRegression(degree, alpha):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("ridge_reg", Ridge(alpha=alpha))
    ])

ridge1_reg = RidgeRegression(20, 0.0001)
ridge1_reg.fit(X_train, y_train)

y1_predict = ridge1_reg.predict(X_test)
mean_squared_error(y_test, y1_predict)

比之前的mse小的很多

8-9 LASSO

绝对值比ridge小平方的和要大，写程序初值可以小一点

from sklearn.linear_model import Lasso

def LassoRegression(degree, alpha):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("lasso_reg", Lasso(alpha=alpha))
    ])


lasso1_reg = LassoRegression(20, 0.01)
lasso1_reg.fit(X_train, y_train)

y1_predict = lasso1_reg.predict(X_test)
mean_squared_error(y_test, y1_predict)