Chrome

web概述,html概述及常用标签,文本处理

陌路散爱 提交于 2020-12-08 19:35:17
web概述 html概述 文本处理 常用标签 web概述: web三要素: 浏览器:向服务器发起请求,下载服务器中的网页(HTML),然后执行HTML显示出内容。 服务器:接受浏览器的请求,发送相应的页面到浏览器。 HTTP协议:浏览器与服务器的通讯协议。 常用浏览器 IE Edge FIREfox Chrome safari 特点: 图形化 与平台无关 分布式的 动态的 交互的 ###HTML概述 什么是HTML: 超文本标记语言(HyperText Markup Language,HTML)是一种用于创建网页的标准标记语言。HTML是一种基础技术,常与CSS、JavaScript一起呗众多网站用于设计令人赏心悦目的网页、网页应用程序以及移动应用程序的用户界面。 网页浏览器可以读取HTML文件,并将其渲染成可视化网页。HTML描述了一个网站的结构语义随着线索的呈现,使之成为一种标记语言而非编程语言。 什么是标记? HTML标记通常也被称为HTML标签,HTML标签是由尖括号包围的关键词。 HTML标签通常是成对出现的。 标签对中的第一个标签是开始标签,第二个标签是结束标签。 html标签分类: 开始标签:包括元素的名称,包裹在开始(<)和结束(>)尖括号中。这表示元素开始-在本例中表示了一个段落的开头。 结束标签:这与开始标记相同,除了它在元素名称之前有一个正斜杠(/)

谷歌浏览器更新了 chrome://flags

眉间皱痕 提交于 2020-12-08 06:27:30
chrome://flags 页面列出很多chrome的 实验性功能。 先来看看官方给出警告信息:可能随时会更改、中止或取消。 因此,我们完全无法保证您启用某项实验性功能后会发生什么情况,您的浏览器甚至可能会自动崩溃。请注意,您的浏览器可能会删除您的所有数据,您的安全和隐私也有可能受到意外伤害。您启用的所有实验性功能将用于此浏览器的所有用户。启用前,请务必三思。 想试试超酷的 Chrome 新功能?欢迎访问 chrome.com/beta,试用我们的测试版!。 这个页面在这么多的更新版本中都没有被更改过,也许根本就不是提供给普通用户使用的,下面提前看看新设计的 chrome://flags 是个什么样子,没有对比就没有伤害 旧的 chrome://flags页面 新的 chrome://flags页面 这张图来自互联网上。 恩 !是在看着更清爽了一些,整体功能变化不大, 支持了搜索,一如既往的使用Material Design的设计风格,把启用和禁用的分了类使其更便捷的查找,对了 好像也把警告去掉了。 这个页面还没有正式发布。 本文分享自微信公众号 - 笑笑笑技术圈(techxxx)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my

chrome 重启

℡╲_俬逩灬. 提交于 2020-12-07 11:33:46
以前设置好重启后,打开上次正在阅读的标签只支持一个窗口。 现在好了。支持二个窗口的多个标签了。三个窗口是否支持呢(我没有测试)。 双屏的话,一般只开二个窗口了。 水一篇小文。 来源: oschina 链接: https://my.oschina.net/u/4286896/blog/4777327

Selenium爬虫注意事项

浪子不回头ぞ 提交于 2020-12-07 06:17:02
部分网站反爬策略较严,一般的爬虫程序不能及时采集数据。如果进行网站反爬策略分析,需要研发投入大量的时间和精力,因此使用Selenium模拟用户浏览器进行数据访问,快速实现数据采集是较好的方案。 但是Selenium爬虫在实际的部署中,需要规避一些常见的问题,才能实现稳定持续的数据采集,包括: 1、开发模式 设置为开发者模式,防止被各大网站识别出来使用了Selenium from selenium.webdriver import ChromeOptions option = ChromeOptions() option.add_experimental_option('excludeSwitches', ['enable-automation'])#开启实验性功能 browser=webdriver.Chrome(options=option) # 修改get方法 script = ''' Object.defineProperty(navigator, 'webdriver', { get: () => undefined }) ''' browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": script}) 2、登录生成Cookie 如果版本不符合,会导致运行失败

selenium爬虫

风流意气都作罢 提交于 2020-12-07 05:41:54
Web自动化测试工具,可运行在浏览器,根据指令操作浏览器, 只是工具,必须与第三方浏览器结合使用,相比于之前学的爬虫只是慢了一点而已。而且这种方法爬取的东西不用在意时候ajax动态加载等反爬机制。因此找标签可以直接F12找,不用确定源码中是否存在。 安装 Linux: sudo pip3 install selenium Windows: python -m pip install selenium phantomjs浏览器 phantomjs浏览器又叫做无界面浏览器(又称无头浏览器),在内存中进行页面加载,运行高效。 安装(phantomjs(无界面浏览器)、chromedriver(谷歌浏览器)、geckodriver(火狐浏览器)) Windows 1、下载对应版本的 phantomjs 、 chromedriver 、 geckodriver 2、chromedriver下载与谷歌浏览器对应的版本,把chromedriver.exe拷贝到python安装目录的Scripts目录下(添加到系统环境变量), 查看python安装路径: where python 3、验证, cmd命令行: chromedriver Linux 1、下载后解压: tar -zxvf geckodriver.tar.gz 2、拷贝解压后文件到 /usr/bin/ (添加环境变量): sudo cp

文献检索

匆匆过客 提交于 2020-12-07 05:41:37
如何检索英文文献 1. 安装chrome浏览器,体验效果更好,如下图1所示 <center>图1 谷歌chrome浏览器</center> 离线安装包下载地址:https://www.iplaysoft.com/tools/chrome/ <br/> 2. 安装谷歌浏览器助手插件 谷歌浏览器助手下载地址 https://pan.baidu.com/s/1U7kxE7IZ25l-TLs-k9aa3A <br/> 2.1 首先将下载后的压缩文件存放在某个固定的地方,然后将文件解压,解压后的内容如下图2所示: <center>图2 文件压缩包解压后的内容</center> <br/> 2.2 打开chrome浏览器,在页面的右上角找到菜单界面点开 更多工具 ,找到 扩展程序 ,如下图3所示 <center>图3 找到扩展程序</center> <br /> 2.3 打开扩展程序安装界面,在右上角找到 开发者模式 ,并打开,如下图4所示 <center>图4 开发者模式</center> <br /> 2.4 在扩展程序安装界面的左上角点击 加载已解压的扩展程序 ,如下图5所示 <center>图5 加载已解压的扩展程序</center> <br /> 2.5 点击加载已解压的扩展程序后,定位到 PP-Google-v1.8文件夹的目录下 ,如下图6所示 <center>图6 PP

Airtest之web自动化(一)

六眼飞鱼酱① 提交于 2020-12-07 01:59:11
Airtest之web自动化(一) [ 此文档有许多涉及到gif动图的地方,请全屏观看] 了解Airtest: 简介: Airtest是由网易团队开发的一款自动化框架,前期运用与游戏测试(通过截图识别),后来又被运用到安卓测试以及web测试。这款自动化框架如此强大的原因来自其团队自己开发的一个图像识别框架,这个框架的祖宗就是一种新颖的图形脚本语言Sikuli。Sikuli这个框架的原理是这样的,计算机用户不需要一行行的去写代码,而是用屏幕截屏的方式,用截出来的图形摆列组合成神器的程序,这是Airtest的一部分。另外,Airtest也基于poco这个UI控件搜索框架,这个框架也是网易自家的跨平台UI测试框架,原理类似于appium,通过控件的名称,id之类的来定位目标控件,然后调用函数方法,例如click(),send_keys()之类的方法来对目标控件进行点击或者是操作。 下载地址: http://airtest.netease.com/changelog.html Airtest展示: 这个动图是Airtest官方文档中截取的,细心的同学可能已经发现:Airtest实现的脚本是python+selenium,刚刚接触到这款框架的时候,我在想这不就是python+selenium的再封装吗,也没有什么新颖的地方。但是细心认真的看,才会发现Airtest强大的之处... 一

微软三月修补64个安全漏洞 其中两个遭黑客开采

筅森魡賤 提交于 2020-12-06 19:44:25
微软于三月的Patch Tuesday中修补了64个安全漏洞,当中有17个属于重大(Critical)漏洞,另有两个已遭到黑客开采,还有4个漏洞在修补之前就被公开,使得有资安专家呼吁使用者最好立即展开修补。两个已被开采的漏洞分别是CVE-2019-0797与CVE-2019-0808,其中,CVE-2019-0797是由卡巴斯基实验室在今年2月所发现的Windows本地端权限扩张漏洞,当Win32k无法适当处理内存中的对象时就会触发漏洞,允许黑客于内核模式执行任意程序,包括安装程序、变更或删除数据,也能建立具备完整用户权力的新账号。要开采CVE-2019-0797必须先登入Windows系统,再执行恶意软件才能掌控系统,然而,卡巴斯基实验室已发现有不同的黑客针对该漏洞展开目标式攻击。至于CVE-2019-0808则是由网络大厂所提报的漏洞,它同样是因Win32k组件无法妥善处理内存中的对象而造成,亦属于本地端权限扩张漏洞,虽然漏洞形成的方式与CVE-2019-0797不同,但可能造成的危害则与CVE-2019-0797相当。 网络大厂其实是在发现有一攻击程序锁定Chrome漏洞CVE-2019-5786的同时发现了藏匿在Windows的CVE-2019-0808漏洞,因为该攻击程序串连了这两个漏洞。不过,CVE-2019-0808只影响Windows 7与Windows

深入细枝末节,Python的字体反爬虫到底怎么一回事

被刻印的时光 ゝ 提交于 2020-12-06 04:58:24
内容选自 即将出版 的《Python3 反爬虫原理与绕过实战》,本次公开书稿范围为第 6 章——文本混淆反爬虫。本篇为第 6 章中的第 4 小节,其余小节将 逐步放送 。 字体反爬虫开篇概述 在 CSS3 之前,Web 开发者必须使用用户计算机上已有的字体。但是在 CSS3 时代,开发者可以使用@font-face 为网页指定字体,对用户计算机字体的依赖。开发者可将心仪的字体文件放在 Web 服务器上,并在 CSS 样式中使用它。用户使用浏览器访问 Web 应用时,对应的字体会被浏览器下载到用户的计算机上。 在学习浏览器和页面渲染的相关知识时,我们了解到 CSS 的作用是修饰 HTML ,所以在页面渲染的时候不会改变 HTML 文档内容。由于字体的加载和映射工作是由 CSS 完成的,所以即使我们借助 Splash、Selenium 和 Puppeteer 工具也无法获得对应的文字内容。字体反爬虫正是利用了这个特点,将自定义字体应用到网页中重要的数据上,使得爬虫程序无法获得正确的数据。 6.4.1 字体反爬虫示例 示例 7:字体反爬虫示例。 网址: http://www.porters.vip/confus... 。 任务:爬取影片信息展示页中的影片评分、评价人数和票房数据,页面内容如图 6-32 所示。 图 6-32 示例 7 页面 在编写代码之前,我们需要确定目标数据的元素定位