uniq

Find unique lines

两盒软妹~` 提交于 2019-11-28 05:10:42
How can I find the unique lines and remove all duplicates from a file? My input file is 1 1 2 3 5 5 7 7 I would like the result to be: 2 3 sort file | uniq will not do the job. Will show all values 1 time uniq has the option you need: -u, --unique only print unique lines $ cat file.txt 1 1 2 3 5 5 7 7 $ uniq -u file.txt 2 3 kasavbere Use as follows: sort < filea | uniq > fileb uniq -u has been driving me crazy because it did not work. So instead of that, if you have python (most Linux distros and servers already have it): Assuming you have the data file in notUnique.txt #Python #Assuming file

netstat命令详解

时光毁灭记忆、已成空白 提交于 2019-11-28 01:07:38
它主要的用法和详解! (netstat -na 命令),本文主要是说Linux下的netstat工具,然后详细说明一下各种网络连接状态。 netstat -nat |awk ‘{print $6}’|sort|uniq -c|sort -nr 1.netstat命令详解 其实我常用的是 netstat -tnl | grep 443 (查看443端口是否被占用),如果有当前是root用户,我喜欢用netstat -pnl | grep 443 (还可显示出占用本机443端口的进程PID)。 netstat 功能说明:显示网络状态。 语  法:netstat [-acCeFghilMnNoprstuvVwx] [-A<网络类型>][--ip] 补充说明:利用netstat指令可让你得知整个Linux系统的网络情况。 参  数: -a 或–all 显示所有连线中的Socket。 -A <网络类型>或–<网络类型> 列出该网络类型连线中的相关地址。 -c 或–continuous 持续列出网络状态。 -C 或–cache 显示路由器配置的快取信息。 -e 或–extend 显示网络其他相关信息。 -F 或 –fib 显示FIB。 -g 或–groups 显示多重广播功能群组组员名单。 -h 或–help 在线帮助。 -i 或–interfaces 显示网络界面信息表单。 -l 或

Output whole line once for each unique value of a column (Bash)

我的未来我决定 提交于 2019-11-28 00:33:00
问题 This must surely be a trivial task with awk or otherwise, but it's left me scratching my head this morning. I have a file with a format similar to this: pep> AEYTCVAETK 2 genes ADUm.1024,ADUm.5198,ADUm.750 pep> AIQLTGK 1 genes ADUm.1999,ADUm.3560 pep> AIQLTGK 8 genes ADUm.1999,ADUm.3560 pep> KHEPPTEVDIEGR 5 genes ADUm.367 pep> VSSILEDKTT 9 genes ADUm.1192,ADUm.2731 pep> AIQLTGK 10 genes ADUm.1999,ADUm.3560 pep> VSSILEDKILSR 3 genes ADUm.2146,ADUm.5750 pep> VSSILEDKILSR 2 genes ADUm.2146,ADUm

【转帖】linux sort,uniq,cut,wc,tr,xargs命令详解

六月ゝ 毕业季﹏ 提交于 2019-11-27 18:41:02
linux sort,uniq,cut,wc,tr,xargs命令详解 http://embeddedlinux.org.cn/emb-linux/entry-level/201607/21-5550.html2015年时 曾经培训过 一次 大数据 当时 用wc 做例子 自己当时不知道wc 是gnu内建的命令 很难理解四年时间自己简单学习了一些 linux 还是很有收获的。 <--目录--> 1)sort 2)uniq 3)cut 4)wc 5)tr 6)xargs 【sort】 sort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出。如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行排序。 sort语法 复制代码 [root@www ~]# sort [-fbMnrtuk] [file or stdin] 选项与参数: -f :忽略大小写的差异,例如 A 与 a 视为编码相同; -b :忽略最前面的空格符部分; -M :以月份的名字来排序,例如 JAN, DEC 等等的排序方法; -n :使用『纯数字』进行排序(默认是以文字型态来排序的); -r :反向排序; -u :就是 uniq ,相同的数据中,仅出现一行代表; -t :分隔符,默认是用 [tab] 键来分隔; -k :以那个区间 (field) 来进行排序的意思

Linux系统下查看CPU信息

故事扮演 提交于 2019-11-27 14:05:31
一、查看CPU信息 1、 查看物理CPU的个数 [root@centos7 data]# cat /proc/cpuinfo |grep "physical id"|sort|uniq|wc -l 2 2、 查看CPU是几核 [root@centos7 data]# cat /proc/cpuinfo |grep "cores"|uniq cpu cores : 2 3、 查看逻辑CPU的个数 [root@centos7 data]# cat /proc/cpuinfo |grep "processor"|wc -l 4 4、 查看CPU的主频 [root@centos7 data]# cat /proc/cpuinfo |grep "GHz"|uniq model name : Intel(R) Core(TM) i7-7700K CPU @ 4.20GHz 5、 同时查看逻辑CPU个数和CPU核数 [root@centos7 data]# cat /proc/cpuinfo |grep name |cut -f2 -d:|uniq -c 4 Intel(R) Core(TM) i7-7700K CPU @ 4.20GHz 6、 使用lscpu命令,可以一次查看所有信息 [root@centos7 data]# lscpu Architecture: x86_64 CPU op

linux 日志

你。 提交于 2019-11-27 14:03:13
第一:两个文件的交集,并集 前提条件:每个文件中不得有重复行 1. 取出两个文件的并集(重复的行只保留一份) 2. 取出两个文件的交集(只留下同时存在于两个文件中的文件) 3. 删除交集,留下其他的行 1. cat file1 file2 | sort | uniq > file3 2. cat file1 file2 | sort | uniq -d > file3 3. cat file1 file2 | sort | uniq -u > file3 第二:两个文件合并 一个文件在上,一个文件在下 cat file1 file2 > file3 一个文件在左,一个文件在右 paste file1 file2 > file3 第三:一个文件去掉重复的行: sort file |uniq 注意:重复的多行记为一行,也就是说这些重复的行还在,只是全部省略为一行! sort file |uniq -u 上面的命令可以把重复的行全部去掉,也就是文件中的非重复行! 具体细节可以查看,cat,sort,uniq等命令的详细介绍 第四:将一个大的文件分割成多个小文件: 采用一个50M大小的日志文件进行测试。 日志文件名:log.txt.gz。 文件行数:208363 方法1:(split分割) 语法:split [-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件

数组去重的常见方法

点点圈 提交于 2019-11-27 09:59:44
JS数组去重的几种常见方法 一、简单的去重方法 // 最简单数组去重法 /* * 新建一新数组,遍历传入数组,值不在新数组就push进该新数组中 * IE8以下不支持数组的indexOf方法 * */ function uniq(array){ var temp = []; //一个新的临时数组 for(var i = 0; i < array.length; i++){ if(temp.indexOf(array[i]) == -1){ temp.push(array[i]); } } return temp; } var aa = [1,2,2,4,9,6,7,5,2,3,5,6,5]; console.log(uniq(aa)); 二、对象键值法去重 /* * 速度最快, 占空间最多(空间换时间) * * 该方法执行的速度比其他任何方法都快, 就是占用的内存大一些。 * 现思路:新建一js对象以及新数组,遍历传入数组时,判断值是否为js对象的键, * 不是的话给对象新增该键并放入新数组。 * 注意点:判断是否为js对象键时,会自动对传入的键执行“toString()”, * 不同的键可能会被误认为一样,例如n[val]-- n[1]、n["1"]; * 解决上述问题还是得调用“indexOf”。*/ function uniq(array){ var temp = {}, r

批量修改逻辑复制表标识方式

血红的双手。 提交于 2019-11-27 08:19:53
PG逻辑复制时,对表进行update 或者delete之后,解析出来的SQL需要在where条件上加以限制,从而防止出现在订阅端重放时出现较大的误差,这个时候就需要通过之前删除的旧值来做限定。 限制的方式主要分四种 1、default:默认通过主键进行限定(非系统表的默认值),仅保留主键旧值 2、nothing:不保留任何旧值(系统表默认) 3、full:保留所有旧值 4、using index :保留唯一索引的旧值,唯一索引列需要保证非空。 一般来说逻辑复制时,有主键是最好的,这样不用去修改直接可以用。其次是唯一索引,需要添加非空约束(如果业务上允许的话),但是需要手动去指定索引名。最后是full,这种方式会使得产生的WAL更大,不推荐。 当库里表比较多,而且大多是需要手动修改复制标识的时候,可以使用脚本、存储过程、匿名块、程序的方式进行,手动操作耗费时间且容易出错。下面贴个匿名块修改的demo do language plpgsql $$ declare uniq text; rec record; cur1 cursor for select w.oid,w.relname,x.nspname from pg_class w,pg_namespace x where w.relnamespace=x.oid and w.relkind='r' and x.nspname

wc cut uniq sort 命令

坚强是说给别人听的谎言 提交于 2019-11-27 05:54:06
学习 wc cut uniq sort 四个命令 : wc :wc用来显示标准输出或者输入的文件的行、单词、字节个数。 wc-l: wc –l /etc/inittab(显示行数) wc-c: wc –c /etc/inittab(显示字节数) wc-m: wc –m /etc/inittab(显示字符数) wc-w: wc –w /etc/inittab(显示字节数) wc-L: wc –L /etc/inittab(显示最长一行字节数) cut-b : 按照字节来切割这个语句(空格也算一个字符) -b不能识别中文,在英文环境下-b和-c一样 例如:cat test.txt I am oldboy my qq is 1234567 1、cut –b 3-4 test.txt (切割test.txt文件中第三和第四个字节:am) 2、cut –b -4 test.txt(切割test.txt文件中第四个字节之前的所有字节,包括第四个:I am) 3、cut –b 1,4- test.txt(切割test.txt文件中第一个字节和第四个字节之后的所有字节:Im oldboy my qq is 1234567) cut –c : 按照字符来切割 除了能切割中文,英文与-b相同 cut –d: 指定分隔符(默认以tab键作为分隔符) 例如:head -1 /etc/passwd

nginx 访问统计

你说的曾经没有我的故事 提交于 2019-11-27 05:31:20
标红的为用的比较多的 1.根据访问IP统计UV awk '{print $1}' access.log|sort | uniq -c |wc -l 2.统计访问URL统计PV awk '{print $7}' access.log|wc -l 3.查询访问最频繁的URL awk '{print $7}' access.log|sort | uniq -c |sort -n -k 1 -r|more 4.查询访问最频繁的IP awk '{print $1}' access.log|sort | uniq -c |sort -n -k 1 -r|more awk '{print $1}' access.log|sort | uniq -c |sort -n -k 1 -r|head -n 100 5.根据时间段统计查看日志 一:使用 sed -n 匹配开始 和 结束 精确度稍微低点,一般匹配到小时,若分钟或者秒,就可能匹配不到 cat access.log| sed -n '/14\/Mar\/2015:21/,/14\/Mar\/2015:22/p'|more 二:awk 查询更全一些,因为提取日期时间进行比较。 start_time 和 stop_time 自己手动或者自动生成 格式 (13/Aug/2019:16:47:14 ) tac access.log | awk -v