开源百度云分享爬虫项目yunshare最新分享 - 安装篇
今天开源了一个百度云网盘爬虫项目,地址是 https://github.com/callmelanmao/yunshare 。 百度云分享爬虫项目 github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发 安装 安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务 安装mysql和mongodb,mysql用来保存爬虫数据,mongodb用来保存最终的百度云分享数据,这些数据是json格式的,用mongodb保存更方便。 git clone https://github.com/callmelanmao/yunshare cnpm i 推荐使用cnpm命令安装npm依赖,最简单的安装方式 $ npm install -g cnpm --registry=https://registry.npm.taobao.org 更多安装cnpm的命令可以去 npm.taobao.org 上面找。 初始化 爬虫数据(主要是url列表)都是保存在mysql数据库的,yunshare使用sequelizejs做orm映射,源文件在 src/models/index.js ,默认的mysql用户名和密码都是root