小白机器学习实用笔记
小白机器学习实用笔记 一.什么是机器学习 机器学习项目流程 特征工程三大步骤:特征抽取、预处理、降维 数据类型 数据集 监督学习与无监督学习 二.用sklearn对特征进行提取(特征抽取) 1: 字典的文字特征提取 2:count方式提取文字特征 3:tf-idf对文字特征提取 打算利用空余时间学习python机器学习,通过写文章的方式来记录学习成果。持续更新中。。。。。 一.什么是机器学习 机器学习是一种数据科学技术,它帮助计算机从现有数据中学习,从而预测未来的行为、结果和趋势 机器学习项目流程 1.根据原始数据明确问题,该做什么 2.特征工程 3找到合适算法,进行训练预测 4模型的评估,判定效果 特征工程三大步骤:特征抽取、预处理、降维 1.特征抽取:将文字、图像等转化为数字 2.预处理:将数字转化为格式统一、符合规范的数值,并且减少特殊值 3.降维:进行数据的筛选,取出最有代表性的数据特征 数据类型 · 散 型 数 据 : 由 记 录 不 同 类 别 个 体 的 数 目 所 得 到 的 数 据 , 又 称 计 数 数 据 , 所 有 这 些 数 据 全 部 都 是 整 数 , 而 且 不 能 再 细 分 , 也 不 能 进 一 步 提 高 他 们 的 精 确 度 。 · 连 续 型 数 据 : 变 量 可 以 在 某 个 范 围 内 取 任 一 数 , 即 变 量 的 取 值