beautifulsoup

Python爬虫:一些常用的爬虫技巧总结

↘锁芯ラ 提交于 2020-10-23 13:40:32
Python实战社群Java实战社群长按识别下方二维码,按需求添加扫码关注添加客服进Python社群▲扫码关注添加客服进Java社群▲ 来源丨j_hao104 https://my.oschina.net/jhao104/blog/647308?fromerr=KzH2VGaK 用Python也差不多一年多了,Python应用最多的场景还是Web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。 1、基本抓取网页 get方法 import urllib2 url = "http://www.baidu.com" response = urllib2.urlopen(url) print response.read() post方法 import urllib import urllib2 url = "http://abcde.com" form = {'name':'abc','password':'1234'} form_data = urllib.urlencode(form) request = urllib2.Request(url,form_data) response = urllib2.urlopen(request) print

Python之自动获取目标网站最新通知

梦想与她 提交于 2020-10-08 04:22:40
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:玖伍壹柒 喜欢的朋友欢迎关注小编,除了分享技术文章之外还有很多福利,私信“资料”可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。 不管是一名学生,亦或是一名员工,我们都需要时刻注意学校或公司网站的通知,尽量做到即时获取最新消息。 大部分博客或数据资源网站都会有自己的RSS提示系统,便于将网站的最新信息及时推送给需要的用户,而用户也可以通过RSS阅读器来即时地获取到目标网站的最新内容。 由于学校或公司网站服务对象的特殊性和局限性,一般不会建立自己的RSS系统。 作为优秀的人儿,我们可以建立自己的RSS提示系统。 这里介绍了如何使用Python和常用的计算机小程序来构建一个RSS提示系统,做到定时自动检测目标网站发布的通知,并即时发送提示邮件。 本期文章设计RSS提示系统的主要思路是: 爬取目标网站内容,建立本地已有通知数据库; 模拟smtp服务器,建立邮件发送系统; 解析检测目标网站发布的通知,若有新内容,则更新数据库并发送提示邮件; 制定计划任务实现定时自动执行Python脚本程序。 1.建立通知数据库 这一步的目的是爬取目标网站已经发布的通知的数据,并进行存储,从而建立与该目标网站内容相对应的本地数据库。

小伙子自从学会用Python爬取岛国“动作”电影,身体一天不如一天

社会主义新天地 提交于 2020-10-04 00:22:41
在互联网的世界里,正确的使用VPN看看外面的世界,多了解了解世界的发展。 肉身翻墙后,感受一下外面的肮脏世界。墙内的朋友叫苦不迭,由于某些原因,VPN能用的越来越少。上周我的好朋友狗子和我哭诉说自己常用的一个VPN终于也寿终正寝了,要和众多的日本小姐姐说再见了。作为"外面人",我还是要帮他一把…… 点击朋友给我网站, 然后看到的就是各种穿不起衣服的女生的卖惨视频,我赶紧闭上眼睛,默念了几句我佛慈悲。 Tokyo真的有那么hot? · 需要的准备的环境 · Python3.6 + Windows · IDE自行选择 · 模块:requests + BeautifulSoup + lxml + re + m3u8都可以直接在CMD里面pip安装。 网站解析 如果直接在网上上面爬取下来的的视频是这样子的 m3u8记录了真实的视频所在的地址。 那么就需要咱们使用开发者工具分析一下了 我们惊喜的发现,一个又一个的 .ts 文件正在载入了 不知道 .ts 文件?这是重要的知识点呀!(敲黑板!) 点开其中的一个.ts文件看一下 打码是真心累 代码 运行之后 然后,我们得到了几百个9s的.ts小视频 我们只需要把这些小视频合成一个就好了 在cmd命令行下,我们进入到这些小视频所在的路径 执行 copy/b %s*.ts %s\new.ts 然后就搞定了,虽然爬取这样的网站非常的有意思