Python爬虫 年轻人不讲武德今天爬爬小说网
最近试了下HTML解析,感觉挺有趣的,忙里偷闲爬上来叨叨一下。 要是有大兄弟也想要相关资料的话戳 这里 ,暗号 csdn ,欢迎来耍。 不讲废话了,下面开始。 面对页面解析难题(Gordian Knot)的时候,不假思索地直接写几行语句来抽取信息是非常直接的做法。但是,像这样鲁莽放纵地使用技术,只会让程序变得难以调试或脆弱不堪,甚至二者兼具。在开始解析网页之前,让我们看一些在解析复杂的 HTML 页面时需要避免的问题。 假如你已经确定了目标内容,可能是采集一个名字、一组统计数据,或者一段文字。你的目标内容可能隐藏在一个 HTML“烂泥堆”的第 20 层标签里,带有许多没用的标签或HTML 属性。假如你不经考虑地直接写出下面这样一行代码来抽取内容: bsObj . findAll ( "table" ) [ 4 ] . findAll ( "tr" ) [ 2 ] . find ( "td" ) . findAll ( "div" ) [ 1 ] . find ( "a" ) 虽然也可以达到目标,但这样看起来并不是很好。除了代码欠缺美感之外,还有一个问题是,当网站管理员对网站稍作修改之后,这行代码就会失效,甚至可能会毁掉整个网络爬虫。那么你应该怎么做呢? •寻找“打印此页”的链接,或者看看网站有没有 HTML 样式更友好的移动版(把自己的请求头设置成处于移动设备的状态