机器学习,数据科学家与Bullshiter

一个人想着一个人 提交于 2020-12-21 05:24:33

点击上方“机器学习与统计学”,选择“置顶”公众号

重磅干货,第一时间送达

图片:Damon Hall

作者:微调@zhihu

编辑:统计学家

https://zhuanlan.zhihu.com/p/38351961

最近接到了一个项目,任务是通过供应商信息及消费明细将交易归类。举个例子,我们现在有一条新的交易:

金额 | 供应商 | 商品描述
¥2333 | ABC合作社 | 电脑

在理想情况下,我们希望准确地预测出四级分类:办公用品 ->IT用品->硬件->电脑。但根据客户介绍,在大部分情况下我们是没有商品描述的。因此输入信息就变成了只有供应商+消费金额,目标是在没有训练数据的情况下进行四级精准预测。

金额 | 供应商 
¥2333 | ABC合作社

这项目没什么特别的,很多互联网金融公司都在做。不巧的是,客户还提出了两个额外需求:

  • 我们没有任何数据供你们训练,只有现成的交易信息以及300个预先设置的类别(可以理解为一个多分类问题)。

  • 大部分交易只有交易金额和采购商,而没有关于交易的内容描述。

不难看出,在有限数据下这个项目可以简化为计算“交易信息”与“类别”相似度问题。比如可以使用预训练的词库把每个交易描述转化为一个向量,并衡量该向量与300个不同分类所对应的向量的相似度。更复杂的情况下可以考虑引入交易金额,甚至通过爬虫从网上收集额供应商信息来整合。但在有限的信息下,这个任务并不具备使用复杂模型的基础

一起负责的该任务的还有A君,是我司某部门的“数据科学家”。第一次项目开会,A君侃侃而谈,大谈人工智能如何改变世界。会后客户想要听听我们的方案,并咨询了A君和我的意见。还没等我们商量,A君便洋洋洒洒地回复了现阶段进展以及一份雄心勃勃的方案。

Here are the steps of building XXX:
1. Data Collection (we can use xxx data as well xxx for the moment)
2. Data Preprocessing (In progress - Almost done)
3. Data Exploration & Visualization (In progress)
4. Model Building (not started, will work on that today)
5. Model Evaluation (after building the model, we will use an independent test set to assess the accuracy of our model, should not take long time when the model is built)

For this exercise I propose to use evolutionary ML techniques :  mix between deep learning and Natural language processing

抛开那些胡扯的进展(事实上什么都没做),A君提出的最终方案是用深度学习+NLP。早上路过他的办公室,我随口问忙什么呢?他笑者说正在下载安装Python,你过来看看这个版本对不对...

讲这个故事的目的的是知微见著,因为据我所知这样的案例在业界并不少见。抛开少量的顶尖企业不谈,大部分企业的人工“智”能早已失了智。已经沦落成了这种“开局一张嘴,进展全靠吹”的模式。没有人在意项目适不适合深度学习,也不在意我们有没有资源运行复杂网络,更没人管到底有多少数据。只要你敢吹,就有人买账,老实人反而会吃亏。我听过不少类似的案例,比如用4个样本训练深度网络,用2个样本拟合一条曲线得到趋势。Twitter上看过这么一句话:

AI is like teenage sex: everyone talks about it, nobody knows how to do it, everyone thinks everyone else is doing it & so claims to do it.

人工智能就像青少年嘴边的sex,每个人都在谈论它,没人知道到底该怎么做。每个人都以为别人在做,所以只好说自己也在做。

现实生活中我认识很多这种人,挂个xxx科学家的名头,懂得很少却非常敢吹。自学两天上几门课就自诩为“专家”。任何项目就是三板斧,几个名词挂在嘴边没完没了(深度学习,CNN,LSTM)。我甚至还见过商科实习生业余时间开讲座培训数据分析和人工智能。在绝大部分情况下,这种人连调个包都做不到。

大家搞这一行的,其实不少人打心底都认为自己是民科(比如我),做的是看天吃饭的事情。然而真正的民科反而觉得自己做的是科学,在促进行业发展,这的确非常讽刺。

是什么造成了这种现象?我觉得根本原因是浮躁。企业觉得人工智能很酷,普通人觉得数学科学家的名字很酷。每个人都觉得做这个很酷,虽然没有人知道自己到底在干什么。

有一次和一个统计学大佬一起吃饭,他讲他专门让人事把岗位从chief data scientist改成了statistician。

“那忽悠人的事,我干不来。”大佬吸了一口烟,悠悠地说道,“主要还是丢不起那人吧。”

关注领取资料

扫码进交流群

推荐阅读

深度学习500问

机器学习数学基础--线性代数

统计学公开课大盘点

机器学习、深度学习思维导图

一张让你代码能力突飞猛进的速查表

点赞,转发,支持作者

本文分享自微信公众号 - 机器学习算法与Python实战(tjxj666)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!