scraper

Python 多线程爬取站酷(zcool.com.cn)图片

旧时模样 提交于 2021-02-16 01:21:10
极速爬取下载站酷( https://www.zcool.com.cn/ ) 设计师/用户 上传的全部 照片/插画 等图片。 项目地址: https://github.com/lonsty/scraper 特点: 极速下载:多线程异步下载,可以根据需要设置线程数 异常重试:只要重试次数足够多,就没有下载不下来的图片 (^o^)/ 增量下载:设计师/用户有新的上传,再跑一遍程序就行了 O(∩_∩)O嗯! 支持代理:可以配置使用代理 环境: python3.6 及以上 1. 快速使用 1) 克隆项目到本地 git clone https://github.com/lonsty/scraper 2) 安装依赖包 cd scraper pip install -r requirements.txt 3) 快速使用 通过用户名 username 下载所有图片到路径 path 下: python crawler.py -u <username> -d <path> 运行截图 爬取结果 2. 使用帮助 查看所有命令 python crawler.py --help Usage: crawler.py [OPTIONS] Use multi-threaded to download images from https://www.zcool.com.cn in bulk by username or

Web Scraper抓取扇贝单词

橙三吉。 提交于 2021-01-28 01:13:37
最近背单词, 发现扇贝单词效率太低了, 然后想办法将扇贝单词抓出来, 导入到其他背单词的软件里, 比如知米 使用Web Scraper 插件搞定: {"_id":"shanbay","startUrl":["https://web.shanbay.com/wordsweb/#/words-table"],"selectors":[{"id":"NotLearn","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"_root","multiple":false,"delay":2000,"clickElementSelector":"div#4 ","clickType":"clickOnce","discardInitialElements":"do-not-discard","clickElementUniquenessType":"uniqueText"},{"id":"word","type":"SelectorText","parentSelectors":["_root","page"],"selector":"div[class^='index_wordName']","multiple":true,"regex":"","delay":0},{"id":"page","type"

Python爬虫入门教程 88-100 Web Scraper 不用一行代码就能学会的爬虫程序

烈酒焚心 提交于 2020-10-06 00:57:02
梦想橡皮擦:是不是以为我会继续写glidedsky网站后面的打擂?很遗憾,猜错了,今天我们放松一下,学个不用写代码的爬虫程序。 Python爬虫入门教程 88-100 WebScraper目录 写在前面 Web Scraper安装 初步尝试使用Web Scraper create new sitemap add new selector 创建子选择器 执行scrape抓取 数据导出 翻页爬取 写在后面 广宣时间 写在前面 Web Scraper 是谷歌浏览器的一个插件,它最大的好处就是让一些不懂Python或者其他编程语言的人可以通过一些简单的鼠标+键盘的操作就能获取到想要的数据,而且能爬取的网站非常多,毕竟它是实实在在安装到一个真实的浏览器上的扩 来源: oschina 链接: https://my.oschina.net/u/4342268/blog/4559628

web scraper 抓取数据并做简单数据分析

雨燕双飞 提交于 2020-10-01 20:27:29
其实 web scraper 说到底就是那点儿东西,所有的网站都是大同小异,但是都还不同。这也是好多同学总是遇到问题的原因。因为没有统一的模板可用,需要理解了 web scraper 的原理并且对目标网站加以分析才可以。 今天再介绍一篇关于 web scraper 抓取数据的文章,除了 web scraper 的使用方式外,还包括一些简单的数据处理和分析。都是基础的不能再基础了。选择这个网站一来是因为作为一个开发者在上面买了不少课,还有个原因就是它的专栏也比较有特点,需要先滚动加载,然后再点击按钮加载。 开始正式的数据抓取工作之前,先来看一下我的成果,我把抓取到的90多个专栏的订阅数和销售总价做了一个排序,然后把 TOP 10 拿出来做了一个柱状图出来。 抓取数据 今天要抓的这个网站是一个 IT 知识付费社区,极客时间,应该互联网圈的大多数同学都听说过,我还在上面买了 9 门课,虽然没怎么看过。 极客时间的首页会列出所有网课,和简书首页的加载方式一样,都是先滚动下拉加载,之后变为点击加载更多按钮加载更多。这是一种典型网站加载方式,有好多的网站都是两种方式结合的。这就给我们用 web scraper 抓数据制造了一定的麻烦,不过也很好解决。 1、创建 sitemap,设置 start url 为 https://time.geekbang.org/ 。 2、创建滚动加载的

Python抓取国家医疗费用数据:国家名、人均开销

自古美人都是妖i 提交于 2020-08-17 04:54:28
前言 整个世界正被大流行困扰着,不同国家拿出了不同的应对策略,也取得了不同效果。这也是本文的脑洞来源,打算研究一下各国在医疗基础设置上的开支,对几个国家的医疗费用进行数据可视化。 由于没有找到最近一年的可靠数据来源,所以这里使用的是2016年的数据。数据清楚哪个国家花得最多、哪个国家花得最少。我一直想试试在Python中网络抓取和数据可视化,这算是个不错的项目。虽然手动将数据输入Excel肯定快得多,但是这样就不会有宝贵的机会来练习一些技能了。 数据科学就是利用各种工具包来解决问题,网络抓取和正则表达式是我需要研究的两个领域。结果简短但复杂,这一项目展示了如何将三种技术结合起来解决数据科学问题。 要求 网络抓取主要分为两部分: 通过发出HTTP请求来获取数据 通过解析HTMLDOM来提取重要数据 库和工具 Requests能够非常简单地发送HTTP请求。 Pandas是一个Python包,提供快速、灵活和有表现力的数据结构。 Web Scraper可以帮助在不设置任何自动化浏览器的情况下抓取动态网站。 Beautiful Soup是一个Python库,用于从HTML和XML文件中提取数据。 matplotlib是一个综合的库,用于在Python中创建静态、动画和交互式可视化效果。 设置 设置非常简单,只需创建一个文件夹,并安装BeautifulSoup和Requests

GitHub:爬虫集合:微博、Twitter、玩加、知网、虎牙、斗鱼、B站、WeGame、猫眼、豆瓣、安居客、居理新房等

☆樱花仙子☆ 提交于 2020-08-13 07:02:59
hello,小伙伴们大家好,今天给大家推荐的开源项目是 : CxSpider ,这个开源整合了作者自己的采集过的所有产品,包括微博、Twitter、玩加、知网、虎牙、斗鱼、B站、WeGame、猫眼、豆瓣、安居客、居理新房感兴趣的小伙伴可以下载看看,应该可以给你提供一个可借鉴的思路。 Project 爬虫详情 1. Twitter用户信息爬虫(twitter.user_info) @author ChangXing @version 4.1 @create 2017.12.25 @revise 2020.06.08 使用第三方模块twitter-scraper采集Twitter用户信息;因为该模块采集的粉丝数和关注数可能存在偏差,因此再通过Selenium抓取Twitter用户信息,以更正该模块采集的数量。 采集信息:粉丝数和关注数为twitter-scraper采集并配合Selenium爬虫检查,其他字段为twitter-scraper采集。 应用配置:无需使用代理IP,需要使用Selenium 2. Twitter用户推文爬虫(twitter.user_tweet) @author ChangXing @version 4.0 @create 2017.12.30 @revise 2020.06.08 微博热搜榜实时爬虫(weibo.hot_ranking) @author

8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)

流过昼夜 提交于 2020-08-12 03:49:51
前天给大家整理了免费数据源网站合集,看大家的反馈很积极,有粉丝留言说,她还想要爬取一些网页的数据进行分析,不知道该如何下手 目前的用的比较多数据爬取方法是用python爬虫,这两年python很火,网上关于python爬虫的教程也很多,大家可以自行学习,但是对没有代码基础的朋友来说,短期上手python还是很困难的。 于是我就连日整理8个零代码数据爬取的工具,并附上使用教程,帮助一些没有爬虫基础的同学获取数据 1.Microsoft Excel 没错,第一个要介绍的就Excel,很多知道Excel可以用来做数据分析,但很少有人知道它还能用来爬数 步骤如下: 1)新建Excel,点击“数据”——“自网站” (2)在弹出的对话框中输入目标网址,这里以全国实时空气质量网站为例,点击转到,再导入 选择导入位置,确定 (3)结果如下图所示 (4)如果要实时更新数据,可以在“数据”——“全部更新”——“连接属性”中进行设置,输入更新频率即可 缺点:这种方式虽然很简单,但是它会把页面上所有的文字信息都抓取过来,所以可能会抓取一部分我们不需要的数据,处理起来比较麻烦 火车头采集器 火车头是爬虫界的元老了,是目前使用人数最多的互联网数据抓取软件。它的优势是采集不限网页,不限内容,同时还是分布式采集,效率会高一些。不过它规则和操作设置在我看来有一些死板,对小白用户来说上手也有点困难

Facebook scraper uses incorrect DNS data > my site is not gettng scraped

纵然是瞬间 提交于 2020-08-04 06:09:07
问题 I recently moved one of my sites (gezondbenjij.nl) to a new hosting account. This resulted in a new IP address. Unfortunately, since the move, the Facebook scraper cannot find my site on the new IP address. It still uses the old IP. All DNS settings are correct, and every browser/client/tool finds the correct site at 178.22.57.204 (gezondbenjij.nl). Except for Facebook.. The facebook scraper lands in my old hosting account. So I guess their hostfile or DNS cache still holds the old data. Even

Scrapy Body Text Only

六月ゝ 毕业季﹏ 提交于 2020-06-11 20:12:23
问题 I am trying to scrape the text only from body using python Scrapy, but haven't had any luck yet. Wishing some scholars might be able to help me here scraping all the text from the <body> tag. 回答1: Scrapy uses XPath notation to extract parts of a HTML document. So, have you tried just using the /html/body path to extract <body> ? (assuming it's nested in <html> ). It might be even simpler to use the //body selector: x.select("//body").extract() # extract body You can find more information

Scrapy Body Text Only

情到浓时终转凉″ 提交于 2020-06-11 20:11:40
问题 I am trying to scrape the text only from body using python Scrapy, but haven't had any luck yet. Wishing some scholars might be able to help me here scraping all the text from the <body> tag. 回答1: Scrapy uses XPath notation to extract parts of a HTML document. So, have you tried just using the /html/body path to extract <body> ? (assuming it's nested in <html> ). It might be even simpler to use the //body selector: x.select("//body").extract() # extract body You can find more information