第一次写python爬虫

佐手、 提交于 2020-04-06 08:32:26

花了4天终于把写完了把国内的几个漏洞平台爬完了,第一次写py,之前一直都在说学习,然后这周任务是把国内的漏洞信息爬取一下。花了1天学PY,剩下的1天一个。期间学习到了很多。总结如下:

====================================================================

=====================================================================================================

期间用了几个不错的类库:

urllib2 re chardet sys bs4 BeautifulSoup requests json 

比如获取某个标签beautifulsoup,find/findAll/find_all

获取标签的内容XXX.contents[i]

还有AJAX的爬虫:requests.post()期间用了这个方法和别的来爬的时候需要POST,但是一直是GET,纠结了一个晚上,最后问了腾讯某小伙伴解决了问题

只要是data=xxx 都会使用urlencode编码,所以一直是GET

返回的是JSON,如果用字符串处理的话相当麻烦,问了长亭的朋友,推荐用了Json的类库(爬AJAX的时候最好设置个头)

result=requests.post(url,json=payload,headers=headers)#print result.textcontent=json.loads(result.text)text=content['result']=========================
apps=json.dumps(j)app_json=json.loads(apps)time=app_json['date']

用起来会方便了很多很多,如果需要搞PY爬虫的时候可以尝试下。因为也是刚学,代码只是实现了功能,代码的架构,没有加线程,速度也不是很好,后期可能会去优化。

如果你遇到什么问题,欢迎一起学习,可以发到我的邮箱:sevck#jdsec.com :)

###############

最后说一下,建议别在WINDOWS下写PY,建议LINUX

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!