beautifulsoup

python之爬虫(爬取.ts文件并将其合并为.MP4文件——以及一些异常的注意事项)

送分小仙女□ 提交于 2020-05-08 03:06:55
//20200115 最近在看“咱们裸熊——we bears”第一季和第三季都看完了,单单就第二季死活找不到,只有腾讯有资源,但是要vip……而且还是国语版……所以就瞄上了一个视频网站——可以在线观看(好的动漫喜欢收藏,就想着下载,第一季第三季都找到了资源,甚至第四季都有,就没有第二季……) 最近又正好在学python(为大数据打基础),就想着爬取视频,下面说说流程: 首先F12检查,先看看是否是直接嵌入链接(以防真的有笨笨的web主~),然后发现没有 然后就开始点开Networks检查抓包,发现有后缀为.m3u8的链接,就点开看了——有两层,第二层是一大堆格式化数据 然后再看剩下的包,都是.ts文件,再以.ts文件链接比对第二个m3u8包里的东西,发现正好对应,只是要拼接字符串获取真实链接,确认了思路之后就开始上手了(只是基础爬取,还未用到线程——其实用线程池技术可以更快,毕竟ts文件很多,也未用到代理,因为数据量还不算大,而且有手动限时) 理一下思路: 先从视频播放界面源码中获取每一集的链接,存在列表里备用(这个是显示的)---->然后获取每一个链接对应网址的源码——里边儿有一个ckplayer的div块,里边儿有第一层m3u8的链接 ----> 用beautifulSoup获取到这个链接(这个链接返回的是一个json,用json包转格式获取到第一层链接) ----->

python-尝试将Excel文件保存为图片并加上水印

|▌冷眼眸甩不掉的悲伤 提交于 2020-05-07 18:44:29
python-尝试将Excel文件保存为图片并加上水印 场景:并不是将 excel 的 chart 生成图片,而是将整个表格内容生成图片。 1. 准备工作 目前搜索不到已有的方法,只能自己尝试写一个,想法有两个: 通过 Python 的图片处理库 PIL ,将 Excel 内信息逐写到图片上; 通过另存为 HTML 文件,利用 Phantomjs 的截图工具,截取到 HTML 。比较曲折的方法,但可能更容易上手。 我选择了后者,虽然每一步都不太熟练,但是先逐个击破吧! 2. Excel to HTML 2.1 尝试直接另存为 HTML 不成功 这一步参考 [How do I save Excel Sheet as HTML in Python? ] https://stackoverflow.com/questions/19631511/how-do-i-save-excel-sheet-as-html-in-python , 需要先在 excel 里编辑好一个 宏 ,再运行如下代码: from win32com.client import Dispatch xl = Dispatch( 'Excel.Application' ) xl.Workbooks.Open( 'C:\Foo\Bar.xlsx' ) #xl.Visible = True -- optional xl

百度深度学习paddlepaddle7日打卡——Python小白逆袭大神学习心得

我只是一个虾纸丫 提交于 2020-05-06 17:57:55
百度深度学习paddlepaddle7日打卡——Python小白逆袭大神学习心得 7日学习总结 第一天作业 第二天作业 第三天作业 第四天作业 第五天作业 7日学习总结 通过这7日打卡课程的学习,从小白入门大神,还需要一段时间,随时大加都说python简单,但是需要系统化的对这个课程进行学习,有一定的基础后,你会在本次这个七日打卡课中的问题可以解决一大部分,在课程的学习中,每日的课程和作业老师讲的都特别认真详细(只能说爱了爱了),在自己做作业的时候,遇到不懂的问题时可以自己翻看学习群里的聊天记录 (图片来自于一个大佬的表情包),七天中大部分与作业相关无法解决的问题,基本上是都可以在微信聊天群解决的,在者在群里遇到不懂的问题时,学习群里的大佬看到后就会及时的帮你解决,当问题有点难度的时候(不要慌),强大的助教团队来帮你解决。同时在这个期间你也可以在AI studle平台上我的课程中找到讨论区 ,讨论区中可能会有和你遇到相同的问题,自己可以翻翻看一下历史讨论即可(可以学到很多的东西哦) 课程的设计是由中国科学院大学AI小鸭团队设计,每期的课程中都滑稽的班班,强大的助教团队,强大的授课讲师团队,都是堪称完美的组合。每期的课程中都会有很多的收获,在本期的课程中有人工智能常用Python库的使用、用Python对《青春有你2》选手信息爬取,PaddleHub体验与应用

手把手教你使用Python爬取西刺代理数据(下篇)

自闭症网瘾萝莉.ら 提交于 2020-05-06 09:19:42
/1 前言/ 前几天小编发布了 手把手教你使用Python爬取西次代理数据(上篇) ,木有赶上车的小伙伴,可以戳进去看看。今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下。 /2 首页分析及提取/ 首先进入网站主页,如下图所示。 简单分析下页面,其中后面的 1 是页码的意思,分析后发现每一页有100 多条数据,然后网站底部总共有 2700+页 的链接,所以总共ip 代理加起来超过 27 万条数据,但是后面的数据大部分都是很多年前的数据了,比如 2012 年,大概就前 5000 多条是最近一个月的,所以决定爬取前面100 页。通 过网站 url 分析,可以知道这 100 页的 url 为: 规律显而易见,在程序中,我们使用一个 for 循环即可完整这个操作: 其中 scrapy 函数是爬取的主要逻辑,对应的代码为: 通过这个方式,我们可以得到每一页的数据。 /3 网页元素分析及提取/ 接下来就是对页面内的元素进行分析,提取其中的代理信息。 如上图,我们目的是进行代理地域分布分析,同时,在爬取过程中需要使用爬取的数据进行代 理更新,所以需要以下几个字段的信息: Ip 地址、端口、服务器位置、类型 为此,先构建一个类,用于保存这些信息: 这样,每爬取一条信息,只要实例化一个 ProxyBean 类即可,非常方便。 接下来就是提取元素过程了,在这个过程我使用了正则表达式和

Python高级应用程序设计任务

狂风中的少年 提交于 2020-05-05 12:56:35
Python高级应用程序设计任务要求 用Python实现一个面向主题的网络爬虫程序,并完成以下内容: (注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 名称:爬取携程网站泉州地区酒店信息 2.主题式网络爬虫爬取的内容与数据特征分析 本次爬虫主要爬取携程网站泉州地区酒店名称与地址和酒店评分 3.主题式网络爬虫设计方案概述(包括实现思路与技术难点) 实现思路:本次设计方案主要使用request库爬取网页信息和beautifulSoup库来提取泉州地区酒店信息 技术难点:主要包括对携程网站泉州地区酒店部分的页面进行分析采集 二、主题页面的结构特征分析(15分) 1.主题页面的结构特征 2.Htmls页面解析 通过F12,对页面进行检查,查看我们所需要爬取内容的相关代码 3.节点(标签)查找方法与遍历方法 (必要时画出节点树结构) 查找方法:find 遍历方法:for循环 三、网络爬虫程序设计(60分) 爬虫程序主体要包括以下各部分,要附源代码及较详细注释,并在每部分程序后面提供输出结果的截图。 1.数据爬取与采集 2.对数据进行清洗和处理 3.文本分析(可选):jieba分词、wordcloud可视化 4.数据分析与可视化 (例如:数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等) 5.数据持久化

【MOOC】【实例】--股票数据定向爬取

狂风中的少年 提交于 2020-05-05 00:31:32
从股票列表网页获取股票代码 根据股票代码去股票详情页面获取股票详细信息 1、 股票列表页面   凤凰网财经—股票信息   http://app.finance.ifeng.com/list/stock.php?t=ha&f=chg_pct&o=desc&p=1 2、 股票详细信息   老虎社区—股票详情   https://www.laohu8.com/stock/600210 实现一:requests—bs4—re 股票数据定向爬取思路 1、 查看网站robots协议,查看网站是否可以爬取 2、 查看网页源代码,查看网页信息是否可以直接爬取 3、 爬取网页信息 4、 解析网页,获取页面信息 在HTML页面中 1) 对于非常有特征的数据,可以直接用正则表达式搜索到 2) 信息存在的区域相对固定,则用BeautifulSoup定位标签位置,再用正则表达式获取 5、 将获取的信息储存到文件中 优化代码 1、提高爬虫速度 直接赋值编码 2、提高程序运行体验(运行时间较长的程序)   增加动态精度显示 import requests from bs4 import BeautifulSoup import re import traceback def getHTMLText(url, code='utf-8'): try: r = requests.get(url) r.raise

python爬取某站上海租房图片

冷暖自知 提交于 2020-05-04 07:55:34
前言   对于一个net开发这爬虫真真的以前没有写过。这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup。python 版本:python3.6 ,IDE :pycharm。其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行。 第三方库 首先安装   我是用的pycharm所以另为的脚本安装我这就不介绍了。   如上图打开默认设置选择Project Interprecter,双击pip或者点击加号,搜索要安装的第三方库。其中如果建立的项目多记得Project Interprecter要选择正确的安装位置不然无法导入。 Requests库 requests库的官方定义:Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。其实他就是请求网络获取网页数据的。 结果如下: 其中Request Headers的参数如下: BeautifulSoup库 BeautifulSoup可以轻松的解析Requests库请求的页面,并把页面源代码解析为Soup文档,一边过滤提取数据。这是 bs4.2的文档 。 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用

Python3:爬取新浪、网易、今日头条、UC四大网站新闻标题及内容

六眼飞鱼酱① 提交于 2020-05-04 07:53:41
Python3:爬取新浪、网易、今日头条、UC四大网站新闻标题及内容 以爬取相应网站的社会新闻内容为例: 一、新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用JS异步加载,直接爬取就行了。 ''' 新浪新闻:http://news.sina.com.cn/society/ Date:20180920 Author:lizm Description:获取新浪新闻 ''' import requests from bs4 import BeautifulSoup from urllib import request import sys import re import os def getNews(title,url,m): Hostreferer = { ' User-Agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 ' } req = request.Request(url) response = request.urlopen(req) # 过滤非utf-8的网页新闻 response = response.read().decode(

为什么Python是数据科学领域最受欢迎的语言之一?

陌路散爱 提交于 2020-05-03 18:57:24
为什么大多数数据科学家都喜欢Python?这篇文章会让你了解到,Python有很多完善的工具包可以协助你完成重要的数据科学任务。 根据Indeed,Glassdoor和Dice等职场网站所提供的信息,与去年同期相比,随着各行各业 越来越依赖于数据进行决策 ,商业对数据科学家的需求也在继续扩大。 事实上,对于我们可以 从不同的学习路径进入到热门的职业中 ,如何选择一条合适的道路取决于你现在所处的职业阶段。除去数学和统计学的要求外,编程方面的专业技术同样是数据科学必须掌握的一项技能。 让我们深度了解一下在数据科学社区中最受欢迎的编程语言。 数据科学家使用最多的三种编程语言 Kaggle的一项调查结果显示,在数据科学家和机器学习爱好者的线上社区中,Python是使用率最高的编程语言,其次是SQL和R(请参看下图)。 参与这项调查的有近24000名从事数据相关职业的人员,其中3/4的调查对象建议那些立志成为数据科学家的人员以Python为学习旅程的起点。在这篇文章中,让我们来探索一下Python能够成为数据从业者中最受欢迎语言的原因,了解为什么做数据分析要选择Python。 为什么数据科学家们喜欢Python? 数据科学家们需要处理复杂的问题,一般问题的解决过程都包括四个主要的步骤: 数据收集和清洗、数据探索、数据建模和数据可视化。 Python可以在整个流程中提供必要有效的处理工具

手把手教你使用Python爬取西刺代理数据(下篇)

核能气质少年 提交于 2020-05-03 15:02:26
/1 前言/ 前几天小编发布了 手把手教你使用Python爬取西次代理数据(上篇) ,木有赶上车的小伙伴,可以戳进去看看。今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下。 /2 首页分析及提取/ 首先进入网站主页,如下图所示。 简单分析下页面,其中后面的 1 是页码的意思,分析后发现每一页有100 多条数据,然后网站底部总共有 2700+页 的链接,所以总共ip 代理加起来超过 27 万条数据,但是后面的数据大部分都是很多年前的数据了,比如 2012 年,大概就前 5000 多条是最近一个月的,所以决定爬取前面100 页。通 过网站 url 分析,可以知道这 100 页的 url 为: 规律显而易见,在程序中,我们使用一个 for 循环即可完整这个操作: 其中 scrapy 函数是爬取的主要逻辑,对应的代码为: 通过这个方式,我们可以得到每一页的数据。 /3 网页元素分析及提取/ 接下来就是对页面内的元素进行分析,提取其中的代理信息。 如上图,我们目的是进行代理地域分布分析,同时,在爬取过程中需要使用爬取的数据进行代 理更新,所以需要以下几个字段的信息: Ip 地址、端口、服务器位置、类型 为此,先构建一个类,用于保存这些信息: 这样,每爬取一条信息,只要实例化一个 ProxyBean 类即可,非常方便。 接下来就是提取元素过程了,在这个过程我使用了正则表达式和