爬虫相关
目录 例子:爬取汽车之家的新闻 例子二:对于需要登录的页面进行的页面爬取 请求头和请求体 扩展 Content-Type location重定向 requests模块 get请求 POST请求 其他请求 参数列表 最常用总结 BeautifulSoup features参数 参数说明 自动登录实例 python中的爬虫,有两个特别方便的模块,requests模块以及BeautifulSoup模块,requests模块主要提供http访问,BeautifulSoup模块主要解决爬取页面后对页面标签以及内容的处理。 例子:爬取汽车之家的新闻 先看个例子热热身: #!/usr/bin/python # -*- coding:utf-8 -*- import requests response = requests.get('http://www.autohome.com.cn/news/') # print(response.content) # 字节 response.encoding = 'gbk' html = response.text # 字符串 # 字符串结构化成为特殊的数据结构 from bs4 import BeautifulSoup obj = BeautifulSoup(html,'html.parser') # 找到符合条件的第一个标签 tag = obj.find