Event Recommendation Engine Challenge分步解析第四步
一、请知晓 本文是基于: Event Recommendation Engine Challenge分步解析第一步 Event Recommendation Engine Challenge分步解析第二步 Event Recommendation Engine Challenge分步解析第三步 需要读者先阅读前三篇文章解析 二、构建event和event相似度数据 我们先看看 events.csv.gz: import pandas as pd df_events_csv = pd.read_csv('events.csv.gz', compression='gzip') df_events_csv.head() 代码实例结果: 文件记录了用户对某 event 的信息(c_100后面还有一列:c_101): 我们来看看如何对上面表中的列信息进行数值转换 1)start_time:参考 Event Recommendation Engine Challenge分步解析第二步 4) 中的 joinedAt列处理 2)city,3)state,4)zip,5)country列处理都利用了hashlib包:注意这里处理event信息的时候,只有那些出现在train.csv和test.csv中的event才会进入数值转换程序 import