Polaris AI学习笔记2

左心房为你撑大大i 提交于 2020-01-15 01:14:20

前言

本想写一个纯AI的基础版,后发现还是要结合实际更好。AI落地比较多在我所知有NLP(自然语言),CV(图像),推荐系统等,我选择拿推荐系统来做后续介绍。本文仅代表个人的学习过程,可能内容会有冗余,懒得整理。

黄色星星是数学能力
蓝色星星是编程能力
在这里插入图片描述

ML & DL

扫盲+复习,对于很多不知道机器学习和深度学习区别的人。

传统机器学习就是自己去人工找特征,有很多办法:PCA,SVD等
深度学习就是用大量数据,机器自动帮你提取特征,但是解释性很差。
在这里插入图片描述

推荐系统

按照AI标准流程,需要 数据 ,模型, 预测。

推荐系统的数据,首先要有人物画像和标签系统。

用户画像 : 定义请Google

用户画像准则

  1. 统一标识, 跨平台数据的User,统一一个ID
  2. 给用户打标签
    八字原则:用户消费行为分析
    用户标签:性别、年龄、地域、收入、学历、职业等
    消费标签:消费习惯、购买意向、是否对促销敏感
    行为标签:时间段、频次、时长、收藏、点击、喜欢、评分
    (User Behavior可以分成Explicit Behavior和Implicit Behavior)
    内容分析:对用户平时浏览的内容进行分析,比如体育、游戏、八卦
  3. 基于标签指导业务
    用户生命周期的三个阶段
    获客:如何进行拉新,通过更精准的营销获取客户;
    粘客:个性化推荐,搜索排序,场景运营等;
    留客:流失率预测,分析关键节点降低流失率
    在这里插入图片描述

标签从哪里来

典型的方式有:
PGC:专家生产
UGC:普通生产
标签是对高维事物的抽象(降维)
聚类算法:K-Means,EM聚类,Mean-Shift,DBSCAN,层次聚类,PCA

距离的定义

欧氏距离
曼哈顿距离
切比雪夫距离
余弦距离

数据规范化

  • Min-max规范化
    将原始数据投射到指定的空间[min,max]
    新数值 = (原数值-极小值)/ (极大值 - 极小值)
    当min=0, max=1时,为[0,1]规范化
    sklearn中的MinMaxScaler

  • Z-Score规范化
    将原始数据转换为正态分布的形式
    新数值 = (原数值 - 均值)/ 标准差
    sklearn中的preprocessing.scale()

  • 小数定标规范化
    通过移动小数点的位置来进行规范化
    使用numpy

评测指标在这里插入图片描述

Tag方法

  • SimpleTagBased
  • NormTagBased
  • TF-IDF
    在这里插入图片描述在这里插入图片描述

TPOT : 基于Python的AutoML工具

  • 目前只能做有监督学习
  • 支持的分类器主要有贝叶斯、决策树、集成树、SVM、KNN、线性模型、xgboost
  • 支持的回归器主要有决策树、集成树、线性模型、xgboost
  • 数据预处理:二值化、聚类、降维、标准化、正则化等
  • 特征选择:基于树模型、基于方差、基于F-值的百分比
  • 可以通过export()方法把训练过程导出为形式为sklearn pipeline的.py文件
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!