正则表达式

正则表达式与文件格式化处理(3)-正则表达式延伸,awk(主)

谁说我不能喝 提交于 2019-12-30 16:33:04
目录 延伸正则表达式 文件的格式化与相关处理 范例一:将刚刚上头数据的文件 ( printf.txt ) 内容仅列出姓名与成绩:(用 [tab] 分隔) 范例二:将上述数据关于第二行以后,分别以字串、整数、小数点来显示: 范例三:列出 16 进位数值 45 代表的字符为何? awk :好用的数据处理工具 这篇的前一篇: 正则表达式与文件格式化处理(2)-sed工具(主) 延伸正则表达式     事实上,一般读者只要了解基础型的正则表达式大概就已经相当足够了,不过,某些时刻为了要简化整个指令操作,了解一下使用范围更广的延伸型正则表达式的表示式会更方便呢!举个简单的例子好了,在上节的例题三的最后一个例子中,我们要去除空白行与行首为 # 的行列,使用的是 grep -v '^$' regular_express.txt | grep -v '^#' 需要使用到管线命令来搜寻两次!那么如果使用延伸型的正则表达式,我们可以简化为: egrep -v '^$|^#' regular_express.txt 由于下面的范例还是有使用到 regular_express.txt 可以重新下载. wget http://linux.vbird.org/linux_basic/0330regularex/regular_express.txt 正则表达式之后,到这个延伸型的正则表达式,你应该也会想到

Python3---标准库---re

我是研究僧i 提交于 2019-12-30 15:20:34
前言 该文章主要描述了re模块的使用 创建时间:20191223 天象独行    正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。   注意:如果对正则表达式不了解可以查看连接:   参考文件1: https://www.cnblogs.com/peng104/p/9619801.html#autoid-1-0-0   参考文件2: https://www.cnblogs.com/hello-wei/p/10181055.html   0X01;re.match(pattern,string,flags=0)函数主要功能是从字符串 起始位置 匹配一个模式,如果不是在起始位置匹配成功,则返回None。 参数   描述 pattern 匹配的正则表达式 string 要匹配的字符串 flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 举例: import re print("----------------------------------------------------") new_str1 = "Aaron is a genius." new_str2 = "genius is my Aaron." print("Aaron在起始位置:",re.match("Aaron",new_str1)) print(

《Python爬虫学习系列教程》学习笔记

孤者浪人 提交于 2019-12-30 14:28:03
《Python爬虫学习系列教程》学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。 一、Python入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则表达式 二、Python实战 1. Python爬虫实战一之爬取糗事百科段子 2. Python爬虫实战二之爬取百度贴吧帖子 3. Python爬虫实战三之计算大学本学期绩点 4. Python爬虫实战四之抓取淘宝MM照片 三、Python进阶 1. Python爬虫进阶一之爬虫框架Scrapy安装配置 目前暂时是这些文章,随着学习的进行,会不断更新哒,敬请期待~ 希望对大家有所帮助,谢谢! 转载请注明: 静觅 » Python爬虫学习系列教程 Python网络爬虫实战教程(全套完整版

nginx中http.server.location指令语法

本小妞迷上赌 提交于 2019-12-30 12:41:59
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> location是nginx配置文件中http块下server块下的一个指令,语法结构为: location [ = | ~ | ~* | ^~ ] uri { ... } []内部的部分为可选项,四种标识只能选其一,用于指定请求字符串和uri的匹配方式。 如果不加可选部分,nginx先按顺序将请求路径匹配所有带标准uri的location,再匹配带正则uri的location,如果有正则uri匹配成功则使用该location,如果没有正则uri匹配成功,则使用 标准uri中匹配度最高的一个location。 "=",严格匹配模式 ,用于标准uri前 ,要求请求字符串与标准uri严格匹配,如果成功,立即处理; "^~",忽略正则uri模式,用于标准uri前,若请求字符串和标准uri匹配度最高,立即处理; "~", 表示uri包含正则表达式,区分大小写; "~*", 表示uri包含正则表达式,不区分大小写。 内容参考自《Nginx高性能Web服务器详解》和《Nginx官方文档》。 来源: oschina 链接: https://my.oschina.net/u/76091/blog/485293

正则表达式

此生再无相见时 提交于 2019-12-30 09:10:51
1.正则表达式:E:\sxt_study\常用的正则表达式.txt 作用:查找、分割、替换 java:后台验证 javascript:前台验证 2.语法规则: a.普通字符匹配: a 就匹配a 1就匹配1 汉字 [\u4e00-\u9fa5] b.匹配特殊字符 转义字符 \ 加对应字符 c.标准字符集合:注意区分大小写,大写是相反的意思 \d:匹配数字 0-9 \w:字母或数字或下划线(A~Z,a~z,0~9) \s: 空格、制表符、换行符等空白字符其中任意一个 . : 匹配所有单个字符 \D:除数字之外的所有字符 \W:除 字母或数字或下划线之外的 2.字符集: []能够匹配方括号中任意一个字符 ^5 以5开头的地方匹配 $以字符串结尾的地方匹配 \b 匹配一个单词边界 [0-9] 要按小的放前面,[9-0]就匹配不到 [12345]==[1-5] 匹配1-5之间的任意字符 [^abc] 匹配abc之外的任一个字符 [f-k] 匹配f-k之间的任意一个字符 [^A-F0-3] 匹配A-F,0-3之外的任意一个字符 3.匹配次数: {n} :n代表匹配的次数 {m,n}: 至少m个,最多n个 先按n个匹配,不够再匹配少的 //贪婪匹配 {m,n}? : 优先从m个数匹配 //尽可能少匹配 非贪婪模式 {m,} 至少匹配m个 ? 匹配0或者1次,相当于{0,1} + 至少出现1次,

正则表达式知识详解

♀尐吖头ヾ 提交于 2019-12-30 09:10:34
一、 什么是正则表达式? 1.定义: 正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与运算符可以将小的表达式结合在一起来创建更大的表达式。 正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。 2.组成: 正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。 3.何时使用:验证——从头到尾完整匹配! 查找——只要部分匹配即可! 二、正则表达式的基本语法和规则 1.备选字符集 :规定某*一位字符*可用的备选字符的集合 语法:[可选字符列表] 强调:1. 无论备选字符集包含多少字符,只能选1个 2. 必须选1个! 比如:6位数字的密码 [0123456789][0123456789][0123456789][0123456789][0123456789][0123456789] 简化:1. 当备选字符连续时,可用-表示范围的区间 比如:[0123456789]-->[0-9] [0-9][0-9][0-9]

正则表达式

情到浓时终转凉″ 提交于 2019-12-30 09:10:18
正则表达式 正则表达式 (Regular Expression)使用单个字符来描述、匹配一系列符合某个句法规则的字符串。 英文简写为regex、regexp、RE 表达式通常用来简索、替换那些符合某个模式的文本。 元字符 具有特殊含义可以匹配任何单个字符的字符 正则表达式区分大小写 常用的元字符 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意空白字符 \d 匹配数字 \b 匹配单词的开始或者结束 ^ 匹配字符的开始 $ 匹配字符的结束 字符转义 如果想要匹配元字符就需要字符转义 转义字符为 \ 重复 * 重复0次或更多次 + 重复一次或更多次 ? 重复0次或1次 {n} 重复n次 {n,} 重复n次到更多次 {n,m} 重复n到m次 自定义 自定义很简单只需要方括号列出它们就可以了 [0-9] 表示匹配数字 [a-z]表示匹配小写字母 分枝条件 分割字符为 | 表示或的意思 注意有时候需要用() 分组 主要解决重复多个字符 IP匹配需要用到 反义 元字符的一些字母大写表示的是反义字符 \W 匹配任意不是字母,数字,下划线,汉字的字符 \S 匹配不是空白字符的字符 \D 匹配任意非数字的字符 \B 匹配不是单词开头或结束的位置 [^x] 匹配除了x以外的任意字符 反向引用 使用小括号指定一个子表达式后,每个分组自动拥有一个文本 从左到右

正则表达式入门

こ雲淡風輕ζ 提交于 2019-12-30 09:10:04
JavaScript 中使用 正则对象使用 1. 声明正则表达式对象=匹配模式 2. 调用方法传参 正则对象的两个方法 1 regular.exec(str) 2 regular.test(str) 3 var str='ssfdsf'; 4 var reg=/66/; 5 reg.test(str); String 字符串方式使用 1 search(reg); RETURN 匹配起始位置,如未找到,返回-1 2 match(reg); RETURN 匹配的数组 3 replace(reg,'替换后的字符串'); RETURN 替换后的新字符串 4 split(reg); RETURN 以指定模式的字符分割字符串,返回数组 子表达式 通过一对圆括号括起来的内容,就称为子表达式 捕获 运行过程中,子表达式所匹配到的内容会被系统放入缓冲区中 反向引用 通过\n (0<n) 来引入缓冲区中的内容 例如:   查找 1221,1881 var reg=/(\d)(\d)\2\1/   查找 2233,7788 var reg=/(\d)\1(\d)\2/ 1 案例: 2 1. 获取所有HTML代码 3 var reg=/<(.*)>.*<\/\1>/gi 4 2. 替换手机号 5 var reg=/\d{3}\d{4}\d{4}/gi; 6 var str=13333333333; str

php正则的使用

依然范特西╮ 提交于 2019-12-30 09:09:27
函数 描述 preg_filter 执行一个正则表达式搜索和替换 preg_grep 返回匹配模式的数组条目 preg_last_error 返回最后一个PCRE正则执行产生的错误代码 preg_match_all 执行一个全局正则表达式匹配 preg_match 执行一个正则表达式匹配 preg_quote 转义正则表达式字符 preg_replace_callback_array 执行一个正则表达式搜索并且使用一个回调进行替换 preg_replace_callback 执行一个正则表达式搜索并且使用一个回调进行替换 preg_replace 执行一个正则表达式的搜索和替换 preg_split 通过一个正则表达式分隔字符串 preg_filter preg_grep <?php $array=array(1,2,3.4,53,7.9,.4); $fl_array=preg_grep("/^(\d+)?\.\d+$/",$array); print_r($fl_array); preg_mactch_all <?php $userinfo = "Name: <b>PHP</b> <br> Title: <b>Programming Language</b>"; preg_match_all ("/<b>(.*)<\/b>/U", $userinfo, $pat_array);

JavaScript使用正则表达式

为君一笑 提交于 2019-12-30 08:58:24
正则表达式概述 在前面已经涉及了一些正则表达式的用法,现在将系统地学习正则表达式的语法和用途。正则表达式主要用于进行字符串的模式匹配,例如判断一个字符串是否符合指定格式等。例如在windows下搜索文件,可以用“*”或者“?”这样的通配符。在正则表达式的语法中,有更多这样的符号用于表示一个字符串的模式,表7.1列出了所有的特殊符号,它们也被称为元字符。 表7.1 正则表达式中的元字符 字 符 说 明 \ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n”匹配字符“n”。“\n”匹配换行符。序列“\\”匹配“\”,“\(”匹配“(” ^ 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与“\n”或“\r”之后的位置匹配 $ 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$还会与“\n”或“\r”之前的位置匹配 * 零次或多次匹配前面的字符或子表达式。例如,zo* 匹配“z”和“zoo”。* 等效于{0,} + 一次或多次匹配前面的字符或子表达式。例如,“zo+”与“zo”和“zoo”匹配,但与“z”不匹配。+ 等效于 {1,} ? 零次或一次匹配前面的字符或子表达式。例如,“do(es)?”匹配“do”或“does”中的“do”。? 等效于 {0,1} {n} n是非负整数