大数据与数据分析相关19本书

放肆的年华 提交于 2020-03-07 11:54:49

整理了最近几年看过的大数据与数据分析相关的书,找出19本,按星级和发布时间排序。

 


 

4星|《人人都在说谎》:社会科学方面有趣的数据分析方法与结论

 

 

书中作者讲了社会科学方面的许多有趣的分析方法与结论。有许多常规调查方法难以得到的数据,现在由于技术的进步可以得到了。比如美国人的种族主义倾向,在媒体和调查中都不太严重,实际上根据谷歌趋势可以看出来许多州是比较严重的。有学者各州的种族主义倾向跟该州对特朗普的支持率正相关。

 

书中一个重要的数据来源是谷歌搜索,此外还有用于研究的报税数据,把大部分纸书电子化的谷歌Ngrams项目,精确到小时的犯罪率,记录梦境的APP等。

 

书中的结论涉及到选举、教育、医疗、犯罪、同性恋等。

 

书中两个重要的知识点:断点回归,维度的诅咒。

 

书中一些有趣的结论:

1:有共同的好友圈其实是一个强预测器,预示着一段爱情长不了;

2:社会经济地位越高,意味着进入NBA的可能性就越大。

3:决定一个人成年后成为哪支球队“死忠粉”最关键的时间节点,是在他8岁左右的那一年;

4:14~24岁的美国人会依据现任总统的受欢迎度形成自己的政治观点;

5:暴力电影放映结束之后的几个小时内,与酒精有关的犯罪活动数量一落千丈;

6:两位经济学家发现对医生的金钱奖励对降低死亡率无显著效果;

7:分配到条件更加严苛的监狱的囚犯,在离开监狱后还有可能犯下更多罪行

8:美国排名第一的史岱文森高中给学生带来的影响有多大呢?无!没有!零!

9:那么,新的大数据来源能否成功预测股票的走势呢?答案很简单:不能。

 

有一个印刷方面的小问题:精装版的书皮掉色,拿在手里看了一会儿就发现红色的书皮有些地方磨白了,手指变红了。

 


 

4星|《对赌:信息不足时如何做出高明决策》:赌徒概率思维最优

 

 

作者是认知心理学博士,有一个职业扑克玩家哥哥,机缘巧合专职玩德州扑克20年。

 

作者在玩牌过程中意识到,扑克比赛中的决策次数特别多特别频繁,差不多每两分钟要有一次决策,可能一个决策就影响到一套房子的输赢。于是对优秀扑克选手的决策模式做了许多思考。

 

书中总结了优秀扑克选手的决策思路,最重要的我认为是两点:

1:概率思维:认识到世界是不可知的,只能尽量选择赢牌概率最大的方案;

2:正确的决策不一定导致好的结果:正确的决策可能导致输牌,绝不能因此认为决策就是错误的;

 

作者引用了博弈论的基本理论,认为生活中只要有选择就是在博弈,在赌自己的选择是最优的,真实的生活更像扑克而不是象棋:自己接下来摸到什么牌对手摸到什么牌是未知的,运气的成分很大,很自然回用结果来判断决策的对错(但这是不对的),赌徒的概率思维在生活中是最优选择。

 

书中还给出跟概率思维相反的常见思维误区:动机性推理、自利性偏差、偏见盲点、确认性思维、时间贴现、事后偏见等。

 

作者也给出了让大脑逐步跳出思维误区适应概率思维的一些方法,比如参加求真小组,小组内讨论问题严格区分情绪、决策、结果,重点讨论决策过程是不是最优而不关注情绪和结果。

 

作者自己儿子考试成绩不好,总是习惯性地怪罪老师不好,作者用这个例子说明这种失败了怪别人的思维误区是人类天性,认识到这一点才能更好地帮助他人。

 

上面我说的概率思维,书中大部分时候叫做“对赌思维”,个别地方叫概率思维。书中频繁出现“对赌”这个词,根据上下文来看,基本确定就是英文“bet”也就是赌博。

 


 

4星|薛云奎《克服偏见》:用财报分析为企业公关稿驱魅

 

 

作者是财报分析专家。书中作者分析了14家A股上市公司外加华为的财报,用财报数据说话,看哪家公司是高科技公司,哪家公司更重视营销/研发,看这些公司的主营业务到底是什么,利润率如何。

 

从财报看公司,跟这些公司的公关稿非常不同。可以说用财报解了公关稿的毒。

 

这15家公司中比较知名的有:乐视、华谊兄弟、东阿阿胶、中兴通讯、中国平安、小米、暴风集团、华大基因、华为等。

 

作者重要的结论有:

1:乐视和暴风影音的利润操控手法堪称经典;

2:华谊兄弟长于投资弱于经营;

3:中兴通讯赚钱的难度和压力要远远超出人们的想象;

4:小米集团是一家以中国本土市场为主、正在国际市场上迅速崛起的智能手机制造商;

5:华大基因研发投入与研发人员数量增长之间的矛盾性背离,隐含公司相关数据恐涉舞弊之嫌;

6:华为已经跻身高科技企业俱乐部,但只是刚刚及格。

 

书中的文章应该都在作者公众号上发表过。许多内容是偏枯燥的数据与图表,不过分析的过程和结论还是比较有意思。

 


 

4星|《小群效应》:移动互联网时代,社群的数据与分析

 

 

作者有多年社群工作经验。书中引用了许多未公开的移动互联网产品的数据和分析结果,也有作者自己的数据与分析。非常有价值。

 

作者的思想我总结如下:移动互联网时代,很大一部分流量已经转移到各个社群中了,因而变得无比分散;社群中的用户喜欢比较、进阶与升级;社群中的意见领袖非常重要。

 

书中有彩图,彩图在kindle阅读器上看不太明白,需要在电脑或平板上看。

 


 

4星|吴军《智能时代》:大数据与人工智能的科普

 

 

全书基本是大数据与人工智能的科普,讲大数据与人工智能的基本原理与有趣的应用。我的评价是4星,作者曾经战斗在这个行业的第一线,对行业的了解在广度和深度两个维度都不错。

 


 

4星|《中国的人口与城市》:关于中国人口与中国城市的数据分析

 

 

本书是作者在知乎的文章的自选集。书中分成两部分,前半部分讲中国的人口的一些数据分析。后半部分是关于中国的城市的一些数据分析。比较有意思。全书比较短。亚马逊上的预估值是84页,1-2个小时就能看完。

作者是高校教师,经济学研究者。

 


 

4星|《智慧社会:大数据与社会物理学》:研究人类的想法的流动扩散的规律

 

 

作者是麻省理工的学者,研究的社会物理学,主要的关注点是想法流(idea flow)的传播的规律。

看完后基本的感觉是社会物理学的内容比较有新意,另外这是严肃的社会学研究而不是拍脑袋空想。但是全书的缺陷社会物理学作为一门科学,书中提出来的规律、定理太少了。社会物理学的实际应用,也相对偏少,还处在个案阶段。

 


 

4星|《颠覆医疗:大数据时代的个人健康革命》:医疗前沿成果介绍,用极小篇幅描绘大数据对医疗可能的颠覆

 

 

本书大部分篇幅在介绍与大数据有关或者沾边的医疗方面的信息:需要使用大样本做测试的临床试验的困难,基因测序,针对特定基因起效的药物(因而也可以看作个性化的药物),等等。作者是专业的医学工作者,内容相当专业。

比较小的篇幅谈到了目前的IT应用给医学带来的变革:便携式、穿戴式医疗设备,社交网络等。

极小的篇幅憧憬了可能出现的大数据对医疗的颠覆:在家远程就医,对大脑活动的检测与控制,数字乌托邦,数字人,等等。

个人认为值得有医学基础的读者看看。否则的话看起来比较枯燥。

 


 

3.5星|《魔球》:美国棒球穷队数据分析挑选球员战胜富队

 

内容是讲一个棒球穷队奥克兰运动家队,面对不利形势,违反常规和直觉,大胆采用数据分析方法来挑选球员,而不是沿用业内通用的球探选球员的方法。实践证明他们作对了。他们用便宜的价格选来的球员表现很好,这些球员来运动家队之后很快身价大涨,总经理比利再把他们买给其他队,换来挑选新球员的资格。

 

作者一如既往的会讲故事,但是我对棒球的比赛规则、选拔队员规则、联盟晋级规则完全不熟悉,也不感兴趣,我倒是希望作者能多一些概括少一些故事。

 

英文版是2004年出版的。2012年有过一个中译本《点球成金》。这本是另外一家出版社的另外一个中译本。书中的故事与信息到2003年就结束了,非常想知道后来的情况,本书在前言后记中几乎没提,这个让我非常失望。

 

书后的《出版后记》中提到,这本书出版后很快成为体育界和管理界经典,超级畅销书《信号与噪声》《超预测》都引用了书中的故事。我确实在很多地方看到了对本书内容的引用,以为看本书能看到更多有趣又深度的内容,不过读后比较失望,对棒球比赛不感兴趣的话,读对本书的概括故事就够了。

 


 

3.5星|《算法霸权》:AI、算法、大数据在美国的阴暗面

 

 

作者在华尔街对冲基金德绍集团担任过金融工程师,后来去银行做过风险分析,再后来去做旅游网站的用户分析。后来辞职专门揭露美国社会生活背后的各种算法的阴暗面。

 

书中提到的算法的技术缺陷,我归纳为两点:第一个比较致命:不准确。不准确有两种体现,首先是算法先天的问题,比如教师评估算法,针对大规模的学生来评估教学质量是可行的,但是具体到一个教师,每年只教30个学生,如果这30个学生中有一两个极好或极差的,会导致对教师的评估出现很大的波动。

 

算法不准确的第二种情况是得不到反馈因此没法逐步优化,作者举一些美国公司采用的招聘评估软件为例,及可能把一些不合格的员工派出在外了,但是雇主不关心,算法得不到反馈因此得不到改进的机会。

 

另外一大缺陷是不公开导致有效益但不公平。还是以招聘时候的评估算法为例,会把一些人拒绝,拒绝的原因有可能是跟罪犯同名之类的错误,更有可能是因为应聘者的种族、居住地等信息。

 

书中提到算法在加重美国的贫富分化。除了招聘评估算法外,预计犯罪地点的算法,实际只能预测轻度犯罪,这一类犯罪在贫民区更多,反过来会强化警察在贫民区的巡查,在贫民区抓获更多轻度犯罪者投入监狱。

 

美国的营利性大学(按书中描述跟国内的莆田系有一拼),靠算法帮助,把营销目标集中的穷人身上,让他们花相对高数倍的学费,得到的文凭在人才市场上跟高中文凭价值接近。

 

作者提出的改善措施是:自律、监管、公开。算法工程师要像医生一样自律,政府需要监管算法的逻辑,算法的逻辑和计算结果需要公开。

 


 

3星|《数据资本时代》:数据会导致资本贬值,缺数据和实例证明

 

 

《大数据时代》作者的新书。基本的思想是说:价格的一个重要作用是传递市场中的信息,大数据会导致信息传递更方便,因而导致资本贬值。

 

这个思想比较有趣,不过逻辑上没能说服我,作者也没能拿出实例与数据来证明,因此我认为这个想法还处于猜想、畅想阶段。

 

书写到一大半的时候才提出主题思想。前面是各种AI应用的介绍与畅想。

 

此外作者还提议:对大公司收取数据税,就是把一部分数据向政府开放来换取一定额度的免税;企业雇用人类员工可以抵免税收,以此拉动就业,并激励企业研发更有价值的人工智能。

 


 

3星|涂子沛《数文明》:书名太夸张,实际是安防监控方面的AI应用

 

主要内容是中美两国安防与监控领域的人工智能应用案例汇编。作者尝试创造一套自己的理论来解释当前人工智能给社会带来的变化,造了一些名词比如“量数”、“据数”、“数联网”、“数体”。不过书中作者自己使用这些理论与名词也很少。我认为作者的理论比较失败。

 

书中案例除个别作者个人亲历或来自朋友的信息外,都是公开可见的。

 

作者尝试旁征博引,引用了不少跟主题相关的故事。跟真正的旁征博引的学者比起来,功力还有欠缺。

 

作者自述在公安系统干过8年,在阿里做过高管。书中内容看不出在公安做过的具体工作,也没提在阿里做过的工作或项目。

 


 

常见的数据误导与反误导方法:3星|《数据的真相》

 

全书由许多小章节组成,每一小章节是一篇相对独立的短文,讲一种数据造成的误解/误导,和读者的反误解/反误导方法。比如说看数据的话美国的副市长的平均工资高于市长的平均工资,细究的话实际是许多小镇没有副市长,只有一个低薪的市长,有副市长的都是相对较大的市镇。

 

这些内容还都比较有意思,也有实用价值。没看过类似资料的读者可以看看。对我来说大部分信息与观点都见过了。

 


 

3星|《大数据,我要把你变成钱》:4篇文章的合集

 

 

4篇文章的合集,文章发表时间没写,看内容好像是前两三年的。内容还有点参考价值。

 


 

3星|《穿透财报,发现企业的秘密》:有趣的上市公司财报分析

 

 

作者在书中给出了一些财务分析的原则,又具体分析了15家国内公司的财报。作者不看好科大讯飞。

 

作者对企业财报分析的几个重要观点:

1:利润没有经营活动净现金支持的话,可能是纸面富贵;

2:一家公司负债的比重越大,就意味着它使用了越多便宜的资本;

3:自己挣出来的销售与购并买来的销售,其含金量自是不同;

 

作者的财务分析功力很强,不做全书内容更适合放到网络上供读者检索而不是集结成册。

 


 

3星|《数据思维:从数据分析到商业价值》:有趣的数据分析案例

全书是公众号“狗熊会”的文章的精选,文章都还比较下功夫,但是集结起来看不够全面系统,有的还略显重复。

 

书中有一些图表的使用技巧,简单介绍了回归分析和机器学习,还有一部分是中文文本分析的案例。

 

所有的案例都没提到具体的实现细节,有些是用excel或R画图可以实现的,有些则需要编程处理。

 

案例比较有意思。

 

书的装帧不错,图是彩色的看起来比较舒服。数据图表的排版与样式花了些功夫,虽然比不上经济学人的图表,还算可以。

 


 

3星|《互联网+:从IT到DT》:阿里公关稿,数据与案例不够全面客观,电商部分有一些生动的例子

 

 

本书是阿里研究院的集体创作,当然要从阿里的视角写,因此其他的互联网巨头的信息很少涉及,对阿里不利的案例很少涉及。

 

关于“互联网+”,关于“互联网+”跟互联网的区别,书的开头有一点介绍。我感觉总体来说直接把书中的“互联网+”批量替换成“互联网”,全书的思想基本不会有变化。

 

书名中的DT指“数据技术”。

 

书中比较生动有趣的是前半部分,讲电子商务,举了一些依托阿里的成功案例。这部分的缺陷是用个案说理,只举非常好的案例,剩下的海量的阿里商户的情况如何完全不提,不够全面客观。

 

后面讲互联网+在其他领域(如医疗、旅游、教育、金融等)的前景,则基本是一些展望,阿里没有特别成功的案例。阿里健康的前景要依赖政府的医保政策,如果政策允许凭医院处方到药店买药,则阿里健康可能会有比较大的发展。

 

阿里妈妈的“时光可逆”功能比较有意思。可能是把tealeaf之类的网站用户跟踪工具的功能做到了阿里的系统中。

 


 

2星|《读懂你的客户:基于大数据的消费者战略》:资料引用与堆砌,缺乏自己的见解

 

 

全书总体是相关资料(书和论文)的引用与堆砌,缺乏自己的见解,可以作为参考资料阅读。

 


 

1星|《数据的本质:无人不是分析师》:内容太虚,推测作者在阿里远离一线,没做成过拿得出手的产品与业绩

 

内容太虚太水,跟阿里的一些实战派写的书一比就知道了,比如跟今年上半年出的《尽在双11》。全书基本看不到阿里的数据与业务的实际经验。基本是作者把已知的信息转述出来,或者是说作者跟哪位大咖比较熟,还聊过天。

 

书中作者三次提到他阿里领导的“聚划算无人车”项目,还提到过一个“黄金策”项目,搜了一下都是知名度比较小的项目,可能都已经停用了。这两个项目作者也完全没提任何的技术上的细节,推测作者可能是个挂名的领导。

 

 

全文完 


 2018左其盛好书榜,没见过更好的榜单

 2018左其盛差评榜,罕见的差书榜

 2018读过评过的400多本书

 本号810篇书评的索引与书单

 想跟小编讨论请移步知识星球

更多毒舌书评参见我的公众号:左其盛经管新书点评

 

 

 

 

 

 

 

 
 

微信扫一扫
关注该公众号

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!