Python---定向爬取网页的内容
定向爬取网页的内容 1.所谓定向爬取网页,我们首先要知道自己需要干什么,明确目标。 2.根据目标过滤自己的网址,说白了就是要找到自己想要目标的关键地址。比如网址中加载更多,这样的接口是没法浏览器上显示的。这时候我们就需要抓包工具fiddler、charles等 3.根据抓去的网址的加载信息,从信息中过滤自己想要的内容。 例子: 抓取腾讯视频中视频评论信息。 import ssl def getComment(url): head = {"Host": "video.coral.qq.com", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0", "Accept": "*/*", "Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2", "Referer": "https://page.coral.qq.com/coralpage/comment/video.html", "Connection": "keep-alive"} cooker = http.cookiejar.CookieJar() opener = urllib.request