清华大学数据挖掘课程幕课习题(第一章前五节)

眉间皱痕 提交于 2020-03-06 17:40:08

第一章第二节

1.“教育不是灌输,而是点燃火焰” 这一思想出自于:苏格拉底
2.如何学好数据挖掘技术?认真学习幕课视频;充分利用课后阅读材料;勤于动手,实践出真知;主动思考,知其然,知其所以然。

第一章第三节

1.在超市环境中对客户位置轨迹进行记录和分析的主要目的有哪些?对拥挤人群进行预警;优化商场布局;个性化营销。
2. 在实际数据分析工作中,数据类型转换和数据自身的错误是面临的主要挑战之一。正确
3.大数据和传统数据分析相比,核心特征就是数据量大。错误,是数据量,数据类型和数据产生的速度。

第一章第四节

1.理想的数据挖掘工作成果应当:Interesting;useful;hidden。
2.ETL系统主要包括:数据提取;数据转换;数据装载

第一章第五节

1.分类器在训练样本上的学习误差越低越好。这是错误的,如果误差越小,说明在空间中分类的线越复杂,对于新样本的判断不一定准确。就像一个死读书的人,在面对他没有见过的知识时,不知道是一个道理,因此,也不是越大就越好。
2.混淆矩阵中False Negative的含义是:被错误的分为负类的样本。
3.在ROC分析中,分类器的性能曲线的理想状态是:越靠上越好,AUC趋近于1.
4.以下最有可能涉及代价敏感分类问题的是:银行信用卡评分模型。
5.假设目标客户占人群的5%,现根据用户模型进行打分排序,取1000名潜在客户中排名前10%的客户,发现其中包含25名目标客户,问此模型在10%处的提升度是多少?

解析;假如100个客户,只有八个人对商品感兴趣,传统方法就是打100个电话,才会知道到底是那八个人。用数据分析方法,对用户进行建模,把用户接受产品的可能性算出来,把前百分之十的用户拿出来,其中可能占了真实感兴趣的百分之四十的用户,百分之四十除以百分之十,就是四,也就是所谓的提升度。
这道题:目标客户占人群百分之五,则目标客户=1000*0.05=50
前百分之十中真实目标客户占比为:25/50=0.5
提升度= 0.5/0.1=5

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!