爬虫中遇到的JSON问题
帮朋友爬一个政府公告文件,整个流程挺简单的,但下了两个文件之后在第三个文件卡住了。经过排查原因,发现是在调用 json 库中的方法 loads 时发生了错误。简单描述一下流程,首先,爬取一个链接可以得到一个 response,response 中的 text 属性也就是我们想要提取的内容,类型是一个字符串,同时也是一个 json 文件。何谓 python 中的 json 对象呢?我的理解是主要以花括号 {}、中括号 []、冒号: 和逗号来表示的一种格式,本质上就是键值对。例如我爬取得到的 response.text 经过 print 如下 {"Succeed":"1","Message":"成功","Data":{"pos":0,"total_count":3743,"rows":[{"id":"1","data":["江门市新会区会城梅江南路22号海棠公馆1座","<a href=\"/public/web/ysxm_JM?ysxmid=635FD571C35C412E85E67BC85A854B73&jgid=d111693f-6943-4f13-858a-cd61ff9184fd\" target=\"_blank\">海棠公馆</a>","<a href=\"/public/web/Yszxx?ysxmid=635FD571C35C412E85E67BC85A854B73