一些感想

社会主义新天地 提交于 2021-01-26 08:42:38


正文共:1192 字 2 图  预计阅读时间:3 分钟

前文推送

  1. MIT线性代数相关资源汇总

  2. Pandas爬取历史天气数据

  3. 关联规则(一):基本原理

  4. 关联规则(二):Apriori算法原理及实现

  5. 《机器学习》--第一章

  6. 《机器学习》--第二章

  7. 《机器学习》--第三章(上

  8. 《机器学习》--第三章(下



又有一段时间没有更新了,诸多原因吧。


最近发生了一些事情,有一些感想吧,对于各个方面而言。


- 数据获得的慢与快


今天工作中遇到一个取日志的需求,需要应对2个月期间每天的日志,大概是100多个log文件,内部有提供下载工具,方式是一个一个下载,下载过程中会被锁定,无法批量下载,也无法做其他操作。于是,这花费了我2个小时(无奈脸)。


还有一部分数据在阿里云上,也是2个月期间的日志,差不多接近200个,通过阿里云提供的接口,我直接用python脚本(之前写的)写完下载、预处理、存储,我全程只需要花1秒钟运行一下脚本。


但是另一方面,对于数据获得所加的限制,增加了获取时间,而且对于多方使用同一数据的情况,就可能会产生多次这种限制导致的时间消耗。


然后,今天回家改良了一下昨天写的爬静态图片网站的爬虫代码,加入了多线程,速度提升好几倍。


另外,不希望对已经爬取的页面或者文件重复爬取,导致网络资源浪费和时间成本增加,于是又加入了与本地文件的比对,比对确认之后再下载。


- 数据的安全性


当然,可以认为对于数据获取的限制,可能是出于数据安全上的考虑。


比如,爬虫之前碰到2次网络问题导致的程序结束,于是在最初的版本之上,加了伪装头,socket超时。


- 数据处理


因为爬虫增加多线程之后,速度提升过于明显,就又想起来之前想要对使用pandas进行数据处理的几个脚本提速的种种尝试都未有明显结果的遗憾。或许去深入挖掘下多线程会有改进吧,拭目以待。


- 数据展示


前段时间还有一个有所成果的内容是对 github pages 的多个网站模板进行了尝试性的改造与改进,这也是突然去写了个网站爬虫的一部分原因(对于前端页面有了一些新的认识)。当然,去尝试这些,还有一个重要原因——当前公众号无法留言,而发布到网站之后,可以留言,并且可以多端访问,格式显示(排版)会更加舒服,也更加方便大家参与进来。同时,不同的内容,也可以使用不同的网站主题,可以更加贴切地去展示相应的内容。



总的来说,just do it.



可以先去体验下网站了(手机查看也是一样的!)

本文内容:https://firewang.github.io/jekyll-theme-prologue/2019/10/23/something.html


PS:

1. 后台回复“线性代数”,“线代” 等任一关键词获取资源链接

2. 后台回复“联系“, “投稿“, “加入“ 等任一关键词联系我们

3. 后台回复 “红包” 领取红包


零维领域,由内而外深入机器学习

dive into machine learning

微信号:零维领域

英文ID:lingweilingyu

本文分享自微信公众号 - 零维领域(lingweilingyu)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!