Beautifulsoup-基础知识
soup = BeautifulSoup(html_doc,features= ‘ lxml ‘ ) tag1 = soup.find(name=‘a‘) #找到第一个a标签,返回一soup对象 tag2 = soup.find_all(name=‘a‘) #找到所有a标签,返回一列表,列表中所有元素为soup对象 tag3 = soup.select(‘#link2‘) #找到id=link2的标签 name = tag3.name #获取标签名 attrs = tag3.attrs #获取属性,返回字典类型 tag3.attrs = {‘href‘=‘www.baidu.com‘} #修改或添加标签属性 del tag3.attrs[‘href‘] #删除标签属性 #判断是标签对象还是文本: from bs4.elementimport Tag tags = soup.find(‘body‘).children for tag in tags: if type(tag) == Tag: print(tag) else: print(‘文本。。。‘) children #body中所有儿子标签 descendants #body中所有子子孙孙标签 body = soup.find(‘body‘) v = body.descendants clear