Python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握Python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签。
Python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握Python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签
Python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握Python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签

源码
1 '''
2 在学习过程中有什么不懂得可以加我的
3 python学习交流扣扣qun,934109170
4 群里有不错的学习教程、开发工具与电子书籍。
5 与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。
6 '''
7 import requests
8 import re
9 import pandas as pd
10
11 def get_data():
12 jj_url1 = 'http://search.jd.com/s_new.php?keyword=%E5%AE%B6%E5%B1%85%E7%94%A8%E5%93%81&enc=utf-8&qrst=1&rt=1&stop=1&pt=1&vt=2&sttr=1&offset=6&page='
13 jj_url2 = '&s=53&click=0'
14 bt_ = []
15 _id = []
16 url_list = []
17 for i in range(1, 10, 2):
18 jj_url = jj_url1 + str(i) + jj_url2
19 url_list.append(jj_url)
20 html = requests.get(jj_url).content.decode('utf-8')
21 reg1 = re.compile('<a target="_blank" title="(.*?)"')
22 reg2 = re.compile('<i class="promo-words" id="(.*?)"></i>')
23 bt = re.findall(reg1, html)
24 id_ = re.findall(reg2, html)
25 bt_.extend(bt)
26 _id.extend(id_)
27 return bt_, _id
28
29 def split_str(_id):
30 zid = []
31 for _ in _id:
32 zid.append(_.split('_')[2])
33 return zid
34
35 def save_data(zid, bt_):
36 data = pd.DataFrame({
37 '标题': bt_,
38 'ID': zid
39 })
40 data.to_excel('./家居用品.xlsx', index=False)
41
42 def start_main():
43 bt_, _id = get_data()
44 zid = split_str(_id)
45 save_data(zid, bt_)
46
47 if __name__ == '__main__':
48 start_main()