网络爬虫--SAX处理xml
使用SAX处理xml 实际上有一个固定的框架,即标签开始,标签结束,文本处理。以下面例子讲解 出来book.xml <? xml version = "1.0" encoding = "ISO-8859-1" ?> < bookstore > < book > < title lang = "eng" > Harry Potter </ title > < price > 29.99 </ price > </ book > < book > < title lang = "eng" > Learning XML </ title > < price > 39.95 </ price > </ book > </ bookstore > SAX代码如下: from xml . parsers . expat import ParserCreate #从xml分析器中导入自定义的分析器 class DefaultSaxHander ( object ) : #建一个默认的Sax处理器(当然类的名字可以自己定义) def start_element ( self , name , attrs ) : #标签处理开始,有标签名和属性 self . name = name print ( 'element: %s, attrs: %s' %( self . name , str (