机器学习流程,常规算法,降维方法
1 场景解析: a.数据探查(数据量的大小,数据缺失或乱码,ETL 操作,字段类型,是否含有目标队列) b.场景抽象(是通过已有的数据,挖掘出可以应用的业务场景。机器学习主要用来解决的场景包括二分类、多分类、聚类和回归) c.算法选择(是确定算法范围、多算法尝试和多视角分析寻找最适合自身业务的算法) 2 数据预处理:采样、去噪、归一化(0,1)和数据过滤,把数据挖掘看成做一道菜的话,数据预处 理就是选择和清洗蔬菜的过程,这一步没做好会影响整个菜品的口感. 3.特征工程:是特征抽象(将源数据抽象成算法可以理解的数据)、特征重要性评估、特征衍生(特征衍生的方法来挖掘更有价值的特)和特征降维几个方面(主成分分析。PCA 通过线性映射投影的方法,把高维的数据映射到了低维的空间中,线性判别式分析LDA) 时间戳,二值类问题,多值有序类问题,多值无序类问题(信息阉割),多值无序类问题(One-hot 编码),文本类型,图像或语音数据(先将图像或者语音转化成矩 阵结构). 4.模型搭建,评估,调优 5.结果输出和分析 常规算法 deep learing 反向传播算法又称BP 算法(backpropagation algorithm),是一种监督学习算法 算法的核心思想是求导的链式法则。BP 算法常被用来求解神经网络中的最优化问题,跟 浅层算法的最优化求解不同的地方是BP