想从事数据科学家的自我修炼(浪叫兽的书单)一年之内从零基础入门(以不抱大腿的姿势)拿下数据竞赛 一等奖 ,二等奖,三等奖

本秂侑毒 提交于 2020-03-12 14:59:01

想从事数据科学家的自我修炼(浪叫兽的书单)一年之内从零基础入门(以不抱大腿的姿势)拿下数据竞赛 一等奖 ,二等奖,三等奖

携程赛的初练书单
 
在科赛网站上,我第一次报名参加了比赛是,酒店未来30天产量预测,当时参加比赛是16年的7月中旬了。距今日的17年5月中旬,不到一年的时间,在科赛网,同样是在携程的出题下拿到了一个冠军一等奖
 

进入正题把,我来写一下我的历史读书记录  和  自发学习过程:

其实刚刚入门是因为想玩爬虫爬新闻做预测:
入门读的书有:

PYTHON自然语言处理中文翻译 NLTK 中文版
quantmod-R中的金融分析包
R数据导入和导出(包括RODBC)
RODBC中文介绍
上面可能也是一些介绍把
了解了一下R语言,因为当初搞不定字符问题 就转战了Python爬虫,进入到了Python语言的学习
Python数据分析基础教程:NumPy学习指南(第2版)
然后找寻金融相关的资料
11.金融时间序列分析  第3版
依旧对R 不放心的时代
R语言核心技术手册(第2版)
自己动手写网络爬虫
用Python写网络爬虫
此时应该是在QQ群里找大鱼学的爬虫 scrapy  和 urllib ,后面发现requests + bs4  入门爬虫比较适合我,写了爬虫直接写个for 就把新闻爬到数据库中了。
在学numpy的过程中加入到了pandas的学习群  和牛叫兽学习pd 此时牛叫兽推荐我看的书是
利用Python进行数据分析
Python for Data Analysis
因为要作图展示 找了一些资料
matplotlib函数汇总
用Python做科学计算
还陆陆续续的找了 R 和 Python资料
一种面向金融时间序列的趋势特征挖掘算法研究 (这个好像是论文)
数据分析   R语言实战
数据可视化实战:使用D3设计交互式图表

其实这里穿插了学习flask  + echart 把股票趋势 还有talib的指标通过网页展示

此时已经很牛叫兽创建了自己的机器学习群然后在开始补充数学 和机器学习知识和官网文档

scikit-learn.user_guide_0.16.1
Matplotlib
scipy-ref-0.17.1
numpy-ref-1.10.1
pandas
Pattern_Classification_Duba中文版(模式分类)

统计思维:程序员数学之概率统计
PRML中文版全文
2012.李航.统计学习方法
机器学习实战(单页视图)
接下来漫长的资料狂过程 找寻了很多资料
社交网站的数据挖掘与分析(中文版)
Python灰帽子 黑客与逆向工程师的Python编程之道
集体智慧编程-python算法应用
笨办法学 Python(第四版)
[黑客攻防技术宝典Web实战篇].Dafydd.Stuttard.第2版
机器学习实战(单页视图)
PYTHON数据可视化编程实战
开始玩携程赛了,就开始迷恋了机器学习了
利用python进行线性回归
Machine Learning for Hackers
Machine Learning in Python
scikit-learn-docs
机器学习系统设计.python
Think Bayes
机器学习算法原理与编程实践
Think Complexity(复杂性思考)
PRML笔记-Notes on Pattern Recognition and Machine Learning
Neural Network and Deep Learning
数学模型 姜启源第四版电子书
数学之美  第2版
凸优化——影印版
[概率图模型  原理与技术][(美)科勒,(以)弗里德曼著][北京:清华大学出版社]

数学建模算法与程序(这本很重要,我看了挺多次的)

由于我并没正式的读过大学 在对一群人的羡慕下 我找了一些简单的资料
线性代数基础讲义(完整版)
矩阵分析与应用 第2版
《线性代数学习辅导与习题全解》同济第五版
支持向量机导论
《线性代数》同济第五版
概率论与数理统计习题全解指南(浙大四版)
概率论与数理统计辅导及习题精解浙大版_13350053
数学分析(第二册)(周民强)
数学分析(第一册)(周民强)
数学分析3周民强
泛函分析
周志华—机器学习(这本是一起找到的)
托马斯微积分(第10版)

然后还有其它的资料

缺失数据的统计处理
缺失数据统计分析(第二版)
Ensemble_Methods_Foundations_and_Algorithms
Large Scale Machine Learning with Python-Packt Publishing(2016)

Ccf用电赛的时候

探索性数据分析+[美]David C.Hoaglin等.现代外国统计学优秀着作译丛
R语言与统计分析
统计学与R读书笔记(第六版)
xgboost导读和实战
经典算法大全
数据之魅:基于开源工具的数据分析
MATLAB数据分析与挖掘实战(其实当时我有一个队友mat搞matlab的)
爱上统计学

下面的书是想对特征分析有更深的了解,主要是波形里面的东西
音频信号分类算法研究
倾向值分析:统计方法与应用(美)郭申阳
非平稳信号特征提取方法及其应用
小波分析及其应用__孙延奎
MATLAB6.5辅助小波分析与应用
矩阵分析与应用(张贤达)
奥本海默 信号与系统 中文版 (第二版)

CCF 拿下了二等奖,发现自己想知道数据挖掘是干嘛的   在找了一些科普资料来学习

数据挖掘:概念与技术(中文第三版)
推荐系统实践
随机过程(Sheldon M.Ross 著)
随机过程 内容、方法与技巧
复旦大学所用随机过程
通信系统中随机过程的模型研究
数据挖掘原理与算法  第3版
不确定性多目标优化的数据挖掘理论及应用

对了  不得不说  我也开始了对哲学的思考  

爱比克泰德论说集.王文华译.商务印书馆(2009)   (这本我现在还在读)
在插播一下 我还对英语感兴趣了,因为苍老师  吴彦祖 动不动的就是英语资料(我内心是崩溃的)
新东方•英语语法新思维

在与yin书和老王争论规则的时候 还有加入到莫言的群里
粗糙集理论与方法_10465281
keras1.0中文文档_带书签和红字链接版
数据科学实战_高清非扫描版
[O'Reilly:社交网站的数据挖掘与分析].(Mattbew.A.Russell).师蓉
数据挖掘技术与工程实践
程序员的数学
管理海量数据-压缩、索引和查询 第2版
设计模式之禅(第二版)
基于机器学习的智能运维--裴丹


书差不多了 不过还有一些接下来看的书

信息论与编码 曹雪虹
《数据挖掘:概念与技术》【韩家炜】原书第三版 中文版
麦肯锡:机器的崛起  中国高管眼中的人工智能
信息论、推理与学习算法  翻译版
Python机器学习——预测分析核心算法
思维的乐趣matrix67数学笔记
线性代数的几何意义
数据仓库
自适应滤波器原理
《线性代数及其应用》(美 第三版)(中文版)


我敢说 如果数据科学家如果招数是降龙十八掌,我就会一掌而已

因为这些书名都存在我的电脑里面
还有更多的书名我就不列了

在发一下我的博客搜索历程
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

完了吗  ??

嗯 完了  我在说一个这圈子里面我心里的一个疙瘩把。
其实我现在不想在玩算法比赛了,真的没劲玩了

助学金比赛回来心就有点累了,加上国网信通产业集团给了我一份工作,从之前的月收入5000 翻了3倍,我其实还是挺知足的,电网待我很不错。

但是在不想玩比赛的情况下,我连续被两个群踢了,在京东赛的群因为发现了leak  没和管理员说,然后直接在群里说这个题目有leak,希望有用leak提分的人出来说一下,然后被管理员踢了,还说我影响了比赛。(对我来说这个过程非常的恶心)
第二次可能是我在群里说  机器学习的成果普遍没被企业接受
还写了一个可能在天池群看来是一个误导新手的导图。把我踢了,被踢时是在和京东赛的管理员争执机器学习在股票预测上的真伪。
附上我写的指导图

 
就写到这里把

对了 博客里面不好传图片

我写的word 不知道怎么放

博客园好像说我这不是原创

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!