分隔符

Python中的split()函数的用法

旧巷老猫 提交于 2020-03-25 05:35:35
函数:split() Python中有split()和os.path.split()两个函数,具体作用如下: split():拆分字符串。通过指定分隔符对字符串进行切片,并返回分割后的字符串列表(list) os.path.split():按照路径将文件名和路径分割开 一、函数说明 1、split()函数 语法:str.split(str="",num=string.count(str))[n] 参数说明: str:表示为分隔符,默认为空格,但是不能为空('')。若字符串中没有分隔符,则把整个字符串作为列表的一个元素 num:表示分割次数。如果存在参数num,则仅分隔成 num+1 个子字符串,并且每一个子字符串可以赋给新的变量 [n]:表示选取第n个分片 注意:当使用空格作为分隔符时,对于中间为空的项会自动忽略 2、os.path.split()函数 语法:os.path.split('PATH') 参数说明: 1.PATH指一个文件的全路径作为参数: 2.如果给出的是一个目录和文件名,则输出路径和文件名 3.如果给出的是一个目录名,则输出路径和为空文件名 二、分离字符串 string = "www.gziscas.com.cn" 1.以'.'为分隔符 print(string.split('.')) ['www', 'gziscas', 'com', 'cn'] 2.分割两次

Hadoop Streaming详解

陌路散爱 提交于 2020-03-24 22:46:08
一: Hadoop Streaming详解 1、Streaming的作用 Hadoop Streaming框架,最大的好处是, 让任何语言编写的 map, reduce 程序能够在hadoop 集群上运行 ;map/reduce程序只要遵循从标准输入stdin读,写出到标准输出stdout即可 其次,容易进行单机调试,通过管道前后相接的方式就可以模拟streaming, 在本地完成map/reduce程序的调试 # cat inputfile | mapper | sort | reducer > output 最后,streaming框架还 提供了作业提交时的丰富参数控制 ,直接通过streaming参数,而不需要使用java语言修改;很多mapreduce的高阶功能,都可以通过steaming参数的调整来完成 2、Streaming的局限 Streaming 默认只能处理文本数据Textfile ,对于二进制数据,比较好的方法是将二进制的key, value进行base64编码,转化为文本 Mapper和reducer的前后都要进行标准输入和标准输出的转化 ,涉及数据拷贝和解析,带来了一定的开销 3、Streaming命令的相关参数 (普通选项、streaming选项) Streaming命令的形式如下: # /usr/local/src/hadoop-1.2.1/bin

pandas.read_csv参数详解

懵懂的女人 提交于 2020-03-23 08:31:01
pandas.read_csv 参数整理 读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见: http://pandas.pydata.org/pandas-docs/stable/io.html 参数: filepath_or_buffer : str,pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (such as a file handle or StringIO) 可以是URL,可用URL类型包括:http, ftp, s3和文件。对于多文件正在准备中 本地文件读取实例:://localhost/path/to/table.csv sep : str, default ‘,’ 指定分隔符。如果不指定参数,则会尝试使用逗号分隔。分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号。正则表达式例子:'\r\t' delimiter : str, default None 定界符,备选分隔符(如果指定该参数,则sep参数失效) delim_whitespace : boolean, default False. 指定空格(例如’ ‘或者’ ‘)是否作为分隔符使用

pandas.read_csv参数详解

那年仲夏 提交于 2020-03-23 08:30:12
转自: pandas.read_csv 参数整理 读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见: http://pandas.pydata.org/pandas-docs/stable/io.html 参数: filepath_or_buffer : str,pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (such as a file handle or StringIO) 可以是URL,可用URL类型包括:http, ftp, s3和文件。对于多文件正在准备中 本地文件读取实例:://localhost/path/to/table.csv sep : str, default ‘,’ 指定分隔符。如果不指定参数,则会尝试使用逗号分隔。分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号。正则表达式例子:'\r\t' delimiter : str, default None 定界符,备选分隔符(如果指定该参数,则sep参数失效) delim_whitespace : boolean, default False. 指定空格(例如’ ‘或者’ ‘)是否作为分隔符使用

截取命令cut命令、awk命令、sed命令

旧时模样 提交于 2020-03-22 15:09:26
cut命令 截取以制表符tab为分隔符的第一列 cut -f 1test.txt 截取以":"为分隔符的第一列,如果比较规律的文件,可以自己设定分隔符 cut -f 1 -d ':' tset.txt 截取以“:”为分隔符的第一列和第三列 cut -f 1,3 -d ':' tset.txt #命令都是用的英文状态的符号 awk命令 截取第二列和第四列,默认为空格,或者制表符 awk ‘{print $2 "\t" $4}’ test.txt 截取以:为分隔符的第一列和第三列 awk '{FS=":"}{print $1 "\t" $3}' test.txt 也可以写成:awk -F ":" '{print $1 "\t" $3}' 也可以写成 awk '{FS=":"}{print $1 "\t" $3}' (这是一个比较标准的写法) sed命令:其实是替换操作,sed修改的只是显示的内容,文件并未修改 输出第十行,-n必须要加,否则会显示所有内容,-i表示修改文件内的内容,这个谨慎操作,-e则表示执行多个动作 sed -n '10p' regular_express.txt 删除2-4行 sed '2,4d' regular_express.txt 在第二行上一行显示wanmei sed '2i wanmei' regular_express.txt

grub 修复及 AWK用法

吃可爱长大的小学妹 提交于 2020-03-21 12:37:39
系统启动和内核管理,各种修复及各种编译 Linux就是个内核。 ldd命令可查到每一个程序依赖的库。 Centos6的启动流程及修复 centos6启动步骤概述 1、上电POST自检,加载BIOS的硬件信息,获取第一个启动设备 2、读取第一个启动设备MBR里的引导加载程序(grub)的启动信息 3、加载核心操作系统的核心信息,核心开始解压缩,并尝试驱动所有的硬件设备 4、核心执行init程序,并获取默认的运行信息 5、init程序执行/etc/rc.d/rc.sysinit文件 6、启动核心的外挂模块 7、init执行运行的各个批处理文件(scripts) 8、init执行/etc/rc.d/rc.local 9、执行/bin/login程序,等待一会登录 10、登录之后开始以shell控制主机 Bootloader是用来启动操作系统的。实现操作系统的前期引导。 GRUB启动程序是多部份组合而成,其中MBR的前446个字节只是他的第一个阶段。 第二阶段放在了磁盘文件:放在了/boot下的grub文件 内核放在/boot/文件下这就是内核文件 初始化的文件系统:/boot/initramfs - VERSION -release.img 这还是一个打包文件。 :先修改后缀就能解压。 :这个文件的目录和根分区的目录一样。他就是一个缩小版的根。这个文件里面就是一个隐藏版的小内核。 :-

awk速查手册

放肆的年华 提交于 2020-03-18 11:33:10
awk速查手册 score.txt cat score.txt Marry 2143 78 84 77 Jack 2321 66 78 45 Tom 2122 48 77 71 Mike 2537 87 97 95 Bob 2415 40 57 62 netstat.txt $cat netstat.txt Proto Recv-Q Send-Q Local-Address Foreign-Address State tcp 0 0 0.0.0.0:3306 0.0.0.0:* LISTEN tcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN tcp 0 0 127.0.0.1:9000 0.0.0.0:* LISTEN tcp 0 0 coolshell.cn:80 124.205.5.146:18245 TIME_WAIT tcp 0 0 coolshell.cn:80 61.140.101.185:37538 FIN_WAIT2 tcp 0 0 coolshell.cn:80 110.194.134.189:1032 ESTABLISHED tcp 0 0 coolshell.cn:80 123.169.124.111:49809 ESTABLISHED tcp 0 0 coolshell.cn:80 116.234.127.77:11502 FIN

Linux下rsync 安装与配置

杀马特。学长 韩版系。学妹 提交于 2020-03-16 19:11:22
1、什么是rsync Rsync(remote synchronize)是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。Rsync使用所谓的“Rsync算法”来使本地和远 程两个主机之间的文件达到同步,这个算法只传送两个文件的不同部分,而不是每次都整份传送,因此速度相当快。 2、rsync服务器端架设 2.1:rsync下载 https://download.samba.org/pub/rsync/src/rsync-3.1.2.tar.gz cd /home/software wget https://download.samba.org/pub/rsync/src/rsync-3.1.2.tar.gz tar -zxvf rsync-3.1.2.tar.gz 2.2:安装rsync   cd rsync-3.1.2   ./configure --prefix=/usr/local/rsync   make   make install 2.3:配置rsync-server   2.3.1:配置rsyncd.conf (手动创建   touch /usr/local/rsync/rsyncd.conf )   vim /usr/local/rsyncd.conf   ### 全局参数 ###   port=873   motd file=/usr

Perl一行式:字段处理和计算

守給你的承諾、 提交于 2020-03-14 11:26:59
perl一行式程序系列文章 : Perl一行式 获取每行最后一个字段 $ perl -alne 'print $F[$#F]' file.log 这里涉及到了选项"-a"、数组 @F 。这里同时还会解释-F选项,它和-a常一起使用。 选项"-a"和awk的自动字段分割一样,会自动将每行数据划分为几个字段。划分字段的分隔符由-F选项指定。如果没有指定-F,则默认以空白符号进行分割(连续空格被认为是单空格)。 分割后的元素全都收集到一个数组 @F 中,所以第一个字段的内容是 $F[0] ,最后一个字段是 $F[-1] 或 $F[$#F] 。 如果想取多个字段,可以对数组 @F 进行切片,例如第3个字段和第第5个字段 @F[2,4] ,第3个字段到倒数第二个字段是 @F[2..$#F-1] 或 @F[1..~~@F-2] 。 获取范围字段 正如上面所解释的,如果想要获取第二个字段到倒数第二个字段: $ perl -lane 'print "@F[1..~~@F-2]"' file.log $ perl -lane 'print "@F[1..$#F-1]"' file.log 指定字段分隔符 之所以单独拿出来解释,是因为"-F"指定分隔符时,空白符号的特殊之处。 对于普通字符,-F自然没有什么问题: $ perl -F: -alne 'print $F[1]' /etc/passwd

awk命令

柔情痞子 提交于 2020-03-14 10:09:29
语法: awk [options] 'Pattern{Action}' file 选项: -F  指定分隔符 -v  设置变量值, 变量: 内置变量: FS  输入字段分隔符, 默认为空白字符 OFS  输出字段分隔符, 默认为空白字符 RS  输入记录分隔符(输入换行符), 指定输入时的换行符 ORS  输出记录分隔符(输出换行符),输出时用指定符号代替换行符 NF  number of Field,当前行有多少列,字段数量 NR  number of ROW,行号,当前处理的文本行的行号。 FNR  当awk处理多个文件时,分别对每个文件的行数进行计数 FILENAME  当前文件名 ARGC  命令行参数的个数 ARGV  表示的是一个数组,这个数组中保存的是命令行所给定的参数,awk规定,'pattern{ action }'并不被看做是参数,awk被看做为参数。 举例: 1、AWK 包含两种特殊的模式:BEGIN 和 END。 BEGIN 模式指定了处理文本之前需要执行的操作: END 模式指定了处理完所有行之后所需要执行的操作: [root@localhost] ~$ awk 'BEGIN{print "aaa","bbb"} {print $1,$2} END{print "ccc","ddd"}' t aaa bbb a b h i o p r s u v ccc