xpath

07 信息化领域热词分类分析及解释 第一步爬取博客园推荐新闻内容

筅森魡賤 提交于 2020-02-08 23:58:21
功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词       2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。       3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科)       4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录,用户可以点击访问;       5,数据可视化展示:① 用字符云或热词图进行可视化展示;② 用关系图标识热词之间的紧密程度。       6,数据报告:可将所有热词目录和名词解释生成 WORD 版报告形式导出。 本次完成第一步的部分功能,爬取博客园的推荐新闻的标题和内容到文本中,        思路:通过观察发现页与页之间的规律 通过改变page来改变页面链接。又发现 图中的href即为对应的新闻详细内容的网页链接的地址 于是再循环爬取对应的href链接获取文章的具体地址。具体代码如下 import requests from lxml import etree import time import pymysql import datetime import urllib import json def getDetail(href, title): #print(href) print(title) head={ 'cookie':'_ga=GA1

六、Appium-python-UI自动化之Xpath定位元素

≯℡__Kan透↙ 提交于 2020-02-08 20:24:45
记录一下selenium,appium中xpath根据父子、兄弟、相邻节点定位的方法: 一、定位方式简介: 1.Xpath轴所有的定位方式: 2.常用的定位方式汇总:/child:: ( 由父节点定位子节点 ),/parent::( 由子节点定位父节点 ),/preceding-sibling::( 由弟弟节点定位哥哥节点 ),/following::( 由哥哥节点定位弟弟节点 ) 二、定位方式详细实例介绍: 1.由父节点定位子节点/child:: (由父节点定位子节点) <html> <body> <div id="祖父节点"> <!--父节点定位子节点--> <div id="父节点"> <div>子节点</div> </div> </div> </body> </html> 各种定位方式: #问题:根据父节点,找出子节点 #1.串联查找 driver.find_element_by_id('父节点).find_element_by_tag_name('div').text #2.xpath父子关系寻找 driver.find_element_by_xpath("//div[@id='父节点']/div").text #3.xpath轴 child driver.find_element_by_xpath("//div[@id='父节点']/child::div").text

What is a multi branch xpath query for finding this?

给你一囗甜甜゛ 提交于 2020-02-08 11:37:28
问题 This is my current xpath query: //node:Expr_Assign[subNode:var/node:Expr_Variable/subNode:Name/scalar:string='my_chinese_surname' and subNode:expr/node:Scalar_String/subNode:value/scalar:string='Qiu'] I'm trying to find it in this xml: <?xml version="1.0" encoding="UTF-8"?> <AST xmlns:node="http://nikic.github.com/PHPParser/XML/node" xmlns:subNode="http://nikic.github.com/PHPParser/XML/subNode" xmlns:attribute="http://nikic.github.com/PHPParser/XML/attribute" xmlns:scalar="http://nikic.github

What is a multi branch xpath query for finding this?

时间秒杀一切 提交于 2020-02-08 11:36:05
问题 This is my current xpath query: //node:Expr_Assign[subNode:var/node:Expr_Variable/subNode:Name/scalar:string='my_chinese_surname' and subNode:expr/node:Scalar_String/subNode:value/scalar:string='Qiu'] I'm trying to find it in this xml: <?xml version="1.0" encoding="UTF-8"?> <AST xmlns:node="http://nikic.github.com/PHPParser/XML/node" xmlns:subNode="http://nikic.github.com/PHPParser/XML/subNode" xmlns:attribute="http://nikic.github.com/PHPParser/XML/attribute" xmlns:scalar="http://nikic.github

xpath的语法知识

*爱你&永不变心* 提交于 2020-02-08 04:41:09
xpath的语法知识点: 1):xpath 用来在xml中查找指定的元素,它是一种路径表达式 2):常用的路径表达式 //:不考虑位置的查找 ./:从当前节点开始往下查找 @:选取属性 示例: /bookstore/book 选取根节点bookstore下面的所有的book //book 选取所有的book 3): nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 … 选取当前节点的父节点。 @ 选取属性。 4):bookstore 选取 bookstore 元素的所有子节点。 /bookstore 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径! bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。 //book 选取所有 book 子元素,而不管它们在文档中的位置。 bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。 //@lang 选取名为 lang 的所有属性。 5): /bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。

初探python爬虫(四)——xpath

南笙酒味 提交于 2020-02-06 21:17:29
在爬虫时可以使用xpath做相应的信息抽取 xpath常用规则 表达式 描述 nodename 选取此接待你的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 … 选取当前子节点的父节点 @ 选取属性 安装 cmd-》pip3 install lxml 实例 ##第一种方式,直接再python代码中解析html字符串 #导入lxml,下面两句话相当于from lxml import etree #只不过在python之后的lxml模块中不再能直接应仍有etree模块 from lxml import html etree = html.etree text=''' <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>表单验证01</title> </head> <body> <ul> <li><a href ="/a/b/c/java/" >java</a></li> <li><a href ="/a/b/c/python/" >python</a></li> <li><a href ="/a/b/c/ai/" >ai</a></li> </ul> </body> </html> ''' #使用etree解析html中的字符串 html = etree

Google Sheets IMPORTXML XPath help (understanding how to read a page source)

▼魔方 西西 提交于 2020-02-06 08:35:31
问题 I am trying to write a function that will give me the annual payout dividend for a given stock. The website I am using is www.seekingalpha.com So I understand that the function is =IMPORTXML (URL, xpath_query) . In that case, my URL is: https://seekingalpha.com/symbol/VOO/dividends/scorecard but the problem I am having is figuring out the correct XPath to acquire the dividend value. I currently have this as my function: =IMPORTXML(CONCATENATE("https://www.seekingalpha.com/symbol/", $B2, "

爬虫(四):xpath

给你一囗甜甜゛ 提交于 2020-02-06 05:28:28
一、什么是xml 1、定义:可扩展标记性语言 2、特点:xml的是具有自描述结构的半结构化数据。 3、作用:xml主要设计宗旨是用来传输数据的。它还可以作为配置文件。 二、xml和html的区别 1、语法要求不同 xml的语法要求更严格。 html不区分大小写,xml区分。 html有时可以省略尾标签。xml不能省略任何标签,严格按照嵌套首尾结构。 只有xml中有自闭标签(没有内容的标签,只有属性。) <a class='abc'/> 在html中属性名可以不带属性值。xml必须带属性值。 在xml中属性 必须用引号括起来,html中可以不加引号。 2、作用不同 html 主要设计用来显示数据以及更好的显示数据。 xml 主要设计宗旨就是用来传输数据。 3、标记不同 xml 没有固定 标记,html的标记都是固定的,不能自定义。 三、xpath 1、什么是xpath xpath 是一种筛选 html或者xml页面元素的【语法】。 2、xml和html的一些名词 3、xml的两种解析方法 4、xpath语法 (1)选取节点 nodename 选取此标签及其所有子标签 / 从根节点开始选取 // 从任意节点开始,不考虑他们的位置。 . 当前节点开始找。 … 当前节点的父节点 @ 选取属性 text() 选取内容 (2)谓语 【谓语】:起限定的作用,限定他前面的内容。 [ ]写在谁的后面

python高级爬虫笔记(1)

故事扮演 提交于 2020-02-05 21:34:34
写在前面 selenium 虽然是新手友好型的爬虫工具,但是个人觉得绝对不是适合新手入门的爬虫。 推荐在了解了 requests体系 的爬虫,有了爬虫的一些常识之后,再来看selenium。 事实上,requests体系的爬虫已经足够满足现阶段大多数网站的爬虫需求 关于Selenium Selenium诞生于2014年,创造者是ThoughtWorks公司的测试工程师Jason Huggins。创造Selenium的目的就是做自动化测试,用以检测网页交互,避免重复劳动。 这个工具可以用来自动加载网页,供爬虫抓取数据。 官方文档 安装 从 这里 下载chromedriver 注意:与目前正在使用的Chrome版本相一致 补充:对于macOS用户,可以把该文件放到 /usr/local/bin/ 目录下,可以省去一些的配置烦恼 pip install selenium 使用 设置配置 option = webdriver.ChromeOptions() option.add_argument(‘headless’) 添加驱动 driver = webdriver.Chrome(chrome_options=option) 牛刀小试 # 与百度首页交互 from selenium import webdriver from selenium . webdriver . support .

xpath find specific link in page

孤街醉人 提交于 2020-02-05 13:05:04
问题 I'm trying to get the email to a friend link from this page using xpath. http://www.guardian.co.uk/education/2009/oct/14/30000-miss-university-place The link itself is wrapped up in tags like this <li><a class="rollover sendlink" href="http://www.guardian.co.uk/email/354237257" title="Opens an email form" name="&lid={pageToolbox}{Email a friend}&lpos={pageToolbox}{2}"><img src="http://static.guim.co.uk/static/80163/common/images/icon_email-friend.gif" alt="" class="trail-icon" /><span>Send to