爬虫入门

狂风中的少年 提交于 2020-03-08 09:49:52

常用库

  • requests
  • beautifulsoup bs4
  • requests-html
    接触过爬虫用的最多的包无非就是requests, urllib包,我们再使用这些包的时候显示,用requests包去获取响应,然后再利用pyquery或者bs4,xpath再去整理提取我们需要是目标数据。也就是下面两步:
import requests

from pyquery import PyQuery as pq

#获取网页

html = requests.get()

#解析网页

doc = pq(html)

作者:RevinDuan
链接:https://www.jianshu.com/p/bd828b9cf74d
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!