搜狗疫情数据爬取(R语言)
3 月,跳不动了?>>> 想必大家最近都很关心新冠状肺炎,疫情导致春节被延长,高速被封,大家伙基本都是远程办公。 趁着周末,来写个爬虫,获取 搜狗疫情 提供的数据,爬取各个省份以及各个市区的确诊、治愈和死亡数据。 1581827981508.png 网页分析 网页地址为: http://sa.sogou.com/new-weball/page/sgs/epidemic?type_page=WEB ,在分析网页时,如果在这里使用浏览器的 检查 功能,根据标签来写xpath,是无法爬取到数据的。如下图,湖北的数据在div.total标签里面,但在源代码中无法搜索到。而且,read_html是获取网页源码,因此如果根据该标签获取数据,结果肯定为空。 1581829059936.png 如果仔细研究一下源码,会发现所有数据都在 <script type="text/javascript"> ,所以xpath=/html/body/script[1]/text()。 <pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="R" cid="n9" mdtype="fences" style="box-sizing: border-box; overflow: visible;