一次爬取小说网站的过程中,遇到了爬虫提交form表单中含有(unable to decode value)的问题,keyword为搜索关键字,然而search参数不知道是什么,我需要还原
点击 VIew URL encoded
然而当我习惯性的打开百度,搜到的确实这样的
然而打印 出来的却不是 %CB%D1+%CB%F7
a='萝莉'
print(a.encode('gbk'))
结果:b’\xc2\xdc\xc0\xf2’
还有这个,介绍了js的方法,然而我用不了
最后看到
但是还是不行
之后看到网页的编码为‘ charset=gbk’,应该加上encoding
a= '%CB%D1+%CB%F7'
print(urllib.parse.unquote(a,encoding='gbk'))
结果正是 搜索 这两个字(坑人)
之后date这样组就好了
date = {'keyword' : '少女'.encode('gbk'),'search':'搜索'.encode('gbk')}
来源:CSDN
作者:holore
链接:https://blog.csdn.net/holore/article/details/104066280