基于python爬虫的百度翻译破解项目
基于python爬虫的百度翻译调用项目 前言 项目概述 难点 项目步骤以及问题的解决方法 观察百度翻译的翻译请求格式 获取sign值和token值 爬虫具体实现流程 前言 假期实在比较闲,决定学习一下爬虫的相关知识,同时也是熟悉一下脚本语言,也能为下学期抢课做点准备。 由于是初学者,也是第一次写博客,希望大家多指教。 项目概述 首先整体来说,项目主要引用python的request第三方库,给百度翻译网站发送一些翻译请求并接收网站的返回并进行返回数据的解析,从中提取出需要的信息。 难点 项目的难点在于如何模仿自己是一个浏览器而不被发现是一个爬虫在发出请求。想要进行模仿有如下做法: 在发送的请求中携带存放浏览器信息的User-Agent,使用post请求或者get等请求的时候包含在 headers 参数中 如果还是不行可以在 headers 参数中添加cookies字段,稍后会具体说明cookies的来源以及使用方法 有的时候网站为了反爬虫会在浏览器发出请求的时候对某些字段进行加密,我们需要在发出请求的时候模拟这些字段的加密 项目步骤以及问题的解决方法 观察百度翻译的翻译请求格式 先在输入框输入我们想要翻译的内容,清空之前的network信息,之后点击翻译,这是network中就会出现一次翻译中浏览器和服务器之间进行的全部交流 观察上图,我们综合名字和Type可以发现