(一)图灵联邦视频CTR初实践

杀马特。学长 韩版系。学妹 提交于 2019-12-05 03:06:51

  看了半年论文,第一次上手实践CTR任务。研一上半年比较忙,初学姑且调用一下现成的deepfm做一些实践上的尝试。

  今天第一天,整理数据集,数据集一共五个文件,包含app信息、用户信息、训练集、测试集、输出格式样本。首先拿到数据先分析特征,做一些特征工程。思路大致如下:

 

  需要one hot 编码的部分:

  Train.txt:用户的设备id,用户的注册id,视频id,视频推荐位置,app版本,网络类型,操作系统版本,设备版本,设备厂商

  App.txt:用户拥有的app

  User.txt:用户画像(tag+outtag),用户等级,劣质用户,性别

 

  Filed:

  用户:用户的设备id,用户的注册id,用户拥有app,用户画像(tag+outtag,用户等级,劣质用户,好友分,个人分,性别

  设备:操作系统版本,设备版本,设备厂商

  网络:网络类型

  App:app版本

  视频:视频id、视频推荐位置

  经度

  纬度

  时间:点击时间戳、曝光时间戳(多维特征衍生)

 

  对于时间部分这个数据集还有很多组合特征可以挖掘,一天先想了这么多。

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!