Beautiful Soup模块使用
1.Beautiful Soup模块的介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性,还可以方便的实现全站点的内容爬取和解析; Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器; lxml 是python的一个解析库,支持HTML和XML的解析,html5lib解析器能够以浏览器的方式解析,且生成HTML5文档; pip install beautifulsoup4 pip install html5lib pip install lxml 2. Beautiful Soup模块解析HTML文档 假如现在有一段不完整的HTML代码,我们现在要使用Beautiful Soup模块来解析这段HTML代码 data = ''' <html><head><title>The Dormouse's story</title></he <body> <p class="title"><b id="title">The Dormouse's story</b></p> <p class="story">Once upon a time there