正文共:1192 字 2 图 预计阅读时间:3 分钟
前文推送
又有一段时间没有更新了,诸多原因吧。
最近发生了一些事情,有一些感想吧,对于各个方面而言。
- 数据获得的慢与快
今天工作中遇到一个取日志的需求,需要应对2个月期间每天的日志,大概是100多个log文件,内部有提供下载工具,方式是一个一个下载,下载过程中会被锁定,无法批量下载,也无法做其他操作。于是,这花费了我2个小时(无奈脸)。
还有一部分数据在阿里云上,也是2个月期间的日志,差不多接近200个,通过阿里云提供的接口,我直接用python脚本(之前写的)写完下载、预处理、存储,我全程只需要花1秒钟运行一下脚本。
但是另一方面,对于数据获得所加的限制,增加了获取时间,而且对于多方使用同一数据的情况,就可能会产生多次这种限制导致的时间消耗。
然后,今天回家改良了一下昨天写的爬静态图片网站的爬虫代码,加入了多线程,速度提升好几倍。
另外,不希望对已经爬取的页面或者文件重复爬取,导致网络资源浪费和时间成本增加,于是又加入了与本地文件的比对,比对确认之后再下载。
- 数据的安全性
当然,可以认为对于数据获取的限制,可能是出于数据安全上的考虑。
比如,爬虫之前碰到2次网络问题导致的程序结束,于是在最初的版本之上,加了伪装头,socket超时。
- 数据处理
因为爬虫增加多线程之后,速度提升过于明显,就又想起来之前想要对使用pandas进行数据处理的几个脚本提速的种种尝试都未有明显结果的遗憾。或许去深入挖掘下多线程会有改进吧,拭目以待。
- 数据展示
前段时间还有一个有所成果的内容是对 github pages 的多个网站模板进行了尝试性的改造与改进,这也是突然去写了个网站爬虫的一部分原因(对于前端页面有了一些新的认识)。当然,去尝试这些,还有一个重要原因——当前公众号无法留言,而发布到网站之后,可以留言,并且可以多端访问,格式显示(排版)会更加舒服,也更加方便大家参与进来。同时,不同的内容,也可以使用不同的网站主题,可以更加贴切地去展示相应的内容。
总的来说,just do it.
可以先去体验下网站了(手机查看也是一样的!)
本文内容:https://firewang.github.io/jekyll-theme-prologue/2019/10/23/something.html

零维领域,由内而外深入机器学习
dive into machine learning
微信号:零维领域
英文ID:lingweilingyu

本文分享自微信公众号 - 零维领域(lingweilingyu)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
来源:oschina
链接:https://my.oschina.net/u/4582359/blog/4384589