构建训练集流程
构建训练集流程 一、前述 根据前文中架构,本文我们讨论线下部分构建训练集部分。因为我们离线部分模型的选择是逻辑回归,所以我们数据必须有x和y. 二、具体流程 1.从数据库中分离出我们需要的数据。 用户行为表(日志) 用户历史下载表 商品词表(商品的基本特征) 2.构建训练集中的关联特征 流程: 2.构建训练集中的基本特征 总结:注意特征名离散化因为如果特征不离散化会造成数据之间有关系。 三、具体构建过程 1、hive建表 真实的生产场景涉及到大概五十张表的字段,这里全部简化流程,直接给出最终的三张表: 应用词表: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 CREATE EXTERNAL TABLE IF NOT EXISTS dim_rcm_hitop_id_list_ds ( hitop_id STRING, name STRING, author STRING, sversion STRING, ischarge SMALLINT , designer STRING, font STRING, icon_count INT , stars DOUBLE , price INT , file_size INT , comment_num INT , screen STRING, dlnum INT )row format