urllib3

Passing web data into Beautiful Soup - Empty list

守給你的承諾、 提交于 2021-02-08 13:47:22
问题 I've rechecked my code and looked at comparable operations on opening a URL to pass web data into Beautiful Soup, for some reason my code just doesn't return anything although it's in correct form: >>> from bs4 import BeautifulSoup >>> from urllib3 import poolmanager >>> connectBuilder = poolmanager.PoolManager() >>> content = connectBuilder.urlopen('GET', 'http://www.crummy.com/software/BeautifulSoup/') >>> content <urllib3.response.HTTPResponse object at 0x00000000032EC390> >>> soup =

How to cancel or pause a urllib request in python

南楼画角 提交于 2021-01-29 12:58:57
问题 So I have this program which requests a file from the web and the user can download it. I am using urllib.request and tkinter for my program. The problem is that when the user hits the 'Download' button there is no pause or cancel until the file gets downloaded and the program freezes too. I really want to create a pause or a cancel button, but I do not know how and I want to eliminate the freezing of the program. Should I use another library like 'requests'? Or should I try threading? Can

pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted...

牧云@^-^@ 提交于 2021-01-16 04:59:11
用pip安装tornado库: python -m pip install tornado 出现问题一: Could not fetch URL https://pypi.org/simple/twisted/: There was a problem confirming the ssl certificate: HTTPSConnectionPool(host='pypi.org', port=443): Max retries exceeded with url: /simple/twisted/ (Caused by SSLError("Can't connect to HTTPS URL because the SSL module is not available.")) - skipping 解决办法:python -m pip install tornado --trusted-host=pypi.python.org --trusted-host=pypi.org --trusted-host=files.pythonhosted.org 即在库名后+ --trusted-host=pypi.python.org --trusted-host=pypi.org --trusted-host=files.pythonhosted.org 出现问题二:pip.

Python下载文件的11种方式

南笙酒味 提交于 2020-12-23 19:25:17
点击蓝色“ Python空间 ”关注我丫 加个“ 星标 ”,每天一起快乐的学习 译者:天天向上 英文原文: https://dzone.com/articles/simple-examples-of-downloading-files-using-python 在本教程中,你将学习如何使用不同的Python模块从web下载文件。此外,你将下载常规文件、web页面、Amazon S3和其他资源。 最后,你将学习如何克服可能遇到的各种挑战,例如下载重定向的文件、下载大型文件、完成一个多线程下载以及其他策略。 使用Requests 你可以使用requests模块从一个URL下载文件。 考虑以下代码: 你只需使用requests模块的get方法获取URL,并将结果存储到一个名为“myfile”的变量中。然后,将这个变量的内容写入文件。 使用wget 你还可以使用Python的wget模块从一个URL下载文件。你可以使用pip按以下命令安装wget模块: 考虑以下代码,我们将使用它下载Python的logo图像。 在这段代码中,URL和路径(图像将存储在其中)被传递给wget模块的download方法。 下载重定向的文件 在本节中,你将学习如何使用requests从一个URL下载文件,该URL会被重定向到另一个带有一个.pdf文件的URL。该URL看起来如下: 要下载这个pdf文件

Python下载文件的11种方式

南笙酒味 提交于 2020-12-23 19:02:38
在本教程中,你将学习如何使用不同的Python模块从web下载文件。此外,你将下载常规文件、web页面、Amazon S3和其他资源。 最后,你将学习如何克服可能遇到的各种挑战,例如下载重定向的文件、下载大型文件、完成一个多线程下载以及其他策略。 使用Requests 你可以使用requests模块从一个URL下载文件。 考虑以下代码: 你只需使用requests模块的get方法获取URL,并将结果存储到一个名为“myfile”的变量中。然后,将这个变量的内容写入文件。 使用wget 你还可以使用Python的wget模块从一个URL下载文件。你可以使用pip按以下命令安装wget模块: 考虑以下代码,我们将使用它下载Python的logo图像。 在这段代码中,URL和路径(图像将存储在其中)被传递给wget模块的download方法。 下载重定向的文件 在本节中,你将学习如何使用requests从一个URL下载文件,该URL会被重定向到另一个带有一个.pdf文件的URL。该URL看起来如下: 要下载这个pdf文件,请使用以下代码: 在这段代码中,我们第一步指定的是URL。然后,我们使用request模块的get方法来获取该URL。在get方法中,我们将allow_redirects设置为True,这将允许URL中的重定向,并且重定向后的内容将被分配给变量myfile。 最后

爬虫爬取抖音热门音乐

老子叫甜甜 提交于 2020-12-18 07:42:25
爬取抖音的热门音乐 这个就相对来说简单一点,这是代码运行的结果 获取音乐的网址https://kuaiyinshi.com/hot/music/?source=dou-yin&page=1 打开该网页F12,F5刷新 做义工只需要以上的数据 根据beautifulsoup去获取,直接上代码 headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' } # 保存路径 save_path = "G: \\ Music \\ douyin \\ " url = "https://kuaiyinshi.com/hot/music/?source=dou-yin&page=1" # 获取响应 res = requests.get(url , headers =headers) # 使用 beautifulsoup 解析 soup = BeautifulSoup(res.text , 'lxml' ) # 选择标签获取最大页数 max_page = soup.select( 'li.page-item > a' )[- 2 ].text # 循环请求 for page

详解Python requests 超时和重试的方法-转载

醉酒当歌 提交于 2020-12-18 06:29:22
转自: https://www.jb51.net/article/152963.htm 转自:https://blog.csdn.net/weixin_39198406/article/details/81482082 网络请求不可避免会遇上请求超时的情况,在 requests 中,如果不设置你的程序可能会永远失去响应。 超时又可分为连接超时和读取超时。 连接超时 连接超时指的是在你的客户端实现到远端机器端口的连接时(对应的是 connect() ),Request 等待的秒数。 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 import time import requests url = ' http://www.google.com.hk ' print (time.strftime( '%Y-%m-%d %H:%M:%S' )) try : html = requests.get(url, timeout = 5 ).text print ( 'success' ) except requests.exceptions.RequestException as e: print (e) print (time.strftime( '%Y-%m-%d %H:%M:%S' )) 因为 google 被墙了,所以无法连接,错误信息显示 connect

python requests 超时与重试

自古美人都是妖i 提交于 2020-12-18 05:57:36
一 源起: requests模块作为python爬虫方向的基础模块实际上在日常实际工作中也会涉及到,比如用requests向对方接口url发送POST请求进行推送数据,使用GET请求拉取数据。 但是这里有一个状况需要我们考虑到:那就是超时的情况如何处理,超时后重试的机制。 二 连接超时与读取超时: 超时:可分为连接超时和读取超时。 连接超时 连接超时,连接时request等待的时间(s) import requests import datetime url = ' http://www.google.com.hk ' start = datetime.datetime.now() print ( ' start ' , start) try : html = requests.get(url, timeout=5 ).text print ( ' success ' ) except requests.exceptions.RequestException as e: print (e) end = datetime.datetime.now() print ( ' end ' , end) print ( ' 耗时: {time} ' .format(time=(end - start))) # 结果: # start 2019-11-28 14:19:24.249588 #

MaxRetryError: HTTPConnectionPool: Max retries exceeded (Caused by ProtocolError('Connection aborted.', error(111, 'Connection refused')))

℡╲_俬逩灬. 提交于 2020-12-13 03:50:07
问题 I have one question:I want to test "select" and "input".can I write it like the code below: original code: 12 class Sinaselecttest(unittest.TestCase): 13 14 def setUp(self): 15 binary = FirefoxBinary('/usr/local/firefox/firefox') 16 self.driver = webdriver.Firefox(firefox_binary=binary) 17 18 def test_select_in_sina(self): 19 driver = self.driver 20 driver.get("https://www.sina.com.cn/") 21 try: 22 WebDriverWait(driver,30).until( 23 ec.visibility_of_element_located((By.XPATH,"/html/body/div[9

MaxRetryError: HTTPConnectionPool: Max retries exceeded (Caused by ProtocolError('Connection aborted.', error(111, 'Connection refused')))

心不动则不痛 提交于 2020-12-13 03:49:29
问题 I have one question:I want to test "select" and "input".can I write it like the code below: original code: 12 class Sinaselecttest(unittest.TestCase): 13 14 def setUp(self): 15 binary = FirefoxBinary('/usr/local/firefox/firefox') 16 self.driver = webdriver.Firefox(firefox_binary=binary) 17 18 def test_select_in_sina(self): 19 driver = self.driver 20 driver.get("https://www.sina.com.cn/") 21 try: 22 WebDriverWait(driver,30).until( 23 ec.visibility_of_element_located((By.XPATH,"/html/body/div[9