uniq | 易学教程

Find unique lines

阅读更多关于 Find unique lines

How can I find the unique lines and remove all duplicates from a file? My input file is 1 1 2 3 5 5 7 7 I would like the result to be: 2 3 sort file | uniq will not do the job. Will show all values 1 time uniq has the option you need: -u, --unique only print unique lines $ cat file.txt 1 1 2 3 5 5 7 7 $ uniq -u file.txt 2 3 kasavbere Use as follows: sort < filea | uniq > fileb uniq -u has been driving me crazy because it did not work. So instead of that, if you have python (most Linux distros and servers already have it): Assuming you have the data file in notUnique.txt #Python #Assuming file

netstat命令详解

阅读更多关于 netstat命令详解

它主要的用法和详解！（netstat -na 命令），本文主要是说Linux下的netstat工具，然后详细说明一下各种网络连接状态。 netstat -nat |awk ‘{print $6}’|sort|uniq -c|sort -nr 1.netstat命令详解其实我常用的是 netstat -tnl | grep 443 （查看443端口是否被占用），如果有当前是root用户，我喜欢用netstat -pnl | grep 443 （还可显示出占用本机443端口的进程PID）。 netstat 功能说明：显示网络状态。语　　法：netstat [-acCeFghilMnNoprstuvVwx] [-A<网络类型>][--ip] 补充说明：利用netstat指令可让你得知整个Linux系统的网络情况。参　　数： -a 或–all 显示所有连线中的Socket。 -A <网络类型>或–<网络类型> 列出该网络类型连线中的相关地址。 -c 或–continuous 持续列出网络状态。 -C 或–cache 显示路由器配置的快取信息。 -e 或–extend 显示网络其他相关信息。 -F 或 –fib 显示FIB。 -g 或–groups 显示多重广播功能群组组员名单。 -h 或–help 在线帮助。 -i 或–interfaces 显示网络界面信息表单。 -l 或

Output whole line once for each unique value of a column (Bash)

阅读更多关于 Output whole line once for each unique value of a column (Bash)

问题 This must surely be a trivial task with awk or otherwise, but it's left me scratching my head this morning. I have a file with a format similar to this: pep> AEYTCVAETK 2 genes ADUm.1024,ADUm.5198,ADUm.750 pep> AIQLTGK 1 genes ADUm.1999,ADUm.3560 pep> AIQLTGK 8 genes ADUm.1999,ADUm.3560 pep> KHEPPTEVDIEGR 5 genes ADUm.367 pep> VSSILEDKTT 9 genes ADUm.1192,ADUm.2731 pep> AIQLTGK 10 genes ADUm.1999,ADUm.3560 pep> VSSILEDKILSR 3 genes ADUm.2146,ADUm.5750 pep> VSSILEDKILSR 2 genes ADUm.2146,ADUm

【转帖】linux sort,uniq,cut,wc,tr,xargs命令详解

阅读更多关于【转帖】linux sort,uniq,cut,wc,tr,xargs命令详解

linux sort,uniq,cut,wc,tr,xargs命令详解 http://embeddedlinux.org.cn/emb-linux/entry-level/201607/21-5550.html2015年时曾经培训过一次大数据当时用wc 做例子自己当时不知道wc 是gnu内建的命令很难理解四年时间自己简单学习了一些 linux 还是很有收获的。 <--目录--> 1）sort 2）uniq 3）cut 4）wc 5）tr 6）xargs 【sort】 sort 命令对 File 参数指定的文件中的行排序，并将结果写到标准输出。如果 File 参数指定多个文件，那么 sort 命令将这些文件连接起来，并当作一个文件进行排序。 sort语法复制代码 [root@www ~]# sort [-fbMnrtuk] [file or stdin] 选项与参数： -f ：忽略大小写的差异，例如 A 与 a 视为编码相同； -b ：忽略最前面的空格符部分； -M ：以月份的名字来排序，例如 JAN, DEC 等等的排序方法； -n ：使用『纯数字』进行排序(默认是以文字型态来排序的)； -r ：反向排序； -u ：就是 uniq ，相同的数据中，仅出现一行代表； -t ：分隔符，默认是用 [tab] 键来分隔； -k ：以那个区间 (field) 来进行排序的意思

Linux系统下查看CPU信息

阅读更多关于 Linux系统下查看CPU信息

一、查看CPU信息 1、查看物理CPU的个数 [root@centos7 data]# cat /proc/cpuinfo |grep "physical id"|sort|uniq|wc -l 2 2、查看CPU是几核 [root@centos7 data]# cat /proc/cpuinfo |grep "cores"|uniq cpu cores : 2 3、查看逻辑CPU的个数 [root@centos7 data]# cat /proc/cpuinfo |grep "processor"|wc -l 4 4、查看CPU的主频 [root@centos7 data]# cat /proc/cpuinfo |grep "GHz"|uniq model name : Intel(R) Core(TM) i7-7700K CPU @ 4.20GHz 5、同时查看逻辑CPU个数和CPU核数 [root@centos7 data]# cat /proc/cpuinfo |grep name |cut -f2 -d:|uniq -c 4 Intel(R) Core(TM) i7-7700K CPU @ 4.20GHz 6、使用lscpu命令，可以一次查看所有信息 [root@centos7 data]# lscpu Architecture: x86_64 CPU op

linux 日志

阅读更多关于 linux 日志

第一：两个文件的交集，并集前提条件：每个文件中不得有重复行 1. 取出两个文件的并集(重复的行只保留一份) 2. 取出两个文件的交集(只留下同时存在于两个文件中的文件) 3. 删除交集，留下其他的行 1. cat file1 file2 | sort | uniq > file3 2. cat file1 file2 | sort | uniq -d > file3 3. cat file1 file2 | sort | uniq -u > file3 第二：两个文件合并一个文件在上，一个文件在下 cat file1 file2 > file3 一个文件在左，一个文件在右 paste file1 file2 > file3 第三：一个文件去掉重复的行： sort file |uniq 注意：重复的多行记为一行，也就是说这些重复的行还在，只是全部省略为一行！ sort file |uniq -u 上面的命令可以把重复的行全部去掉，也就是文件中的非重复行！具体细节可以查看，cat，sort，uniq等命令的详细介绍第四：将一个大的文件分割成多个小文件：采用一个50M大小的日志文件进行测试。日志文件名：log.txt.gz。文件行数：208363 方法1：（split分割）语法：split [-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件

数组去重的常见方法

阅读更多关于数组去重的常见方法

JS数组去重的几种常见方法一、简单的去重方法 // 最简单数组去重法 /* * 新建一新数组，遍历传入数组，值不在新数组就push进该新数组中 * IE8以下不支持数组的indexOf方法 * */ function uniq(array){ var temp = []; //一个新的临时数组 for(var i = 0; i < array.length; i++){ if(temp.indexOf(array[i]) == -1){ temp.push(array[i]); } } return temp; } var aa = [1,2,2,4,9,6,7,5,2,3,5,6,5]; console.log(uniq(aa)); 二、对象键值法去重 /* * 速度最快，占空间最多（空间换时间） * * 该方法执行的速度比其他任何方法都快，就是占用的内存大一些。 * 现思路：新建一js对象以及新数组，遍历传入数组时，判断值是否为js对象的键， * 不是的话给对象新增该键并放入新数组。 * 注意点：判断是否为js对象键时，会自动对传入的键执行“toString()”， * 不同的键可能会被误认为一样，例如n[val]-- n[1]、n["1"]； * 解决上述问题还是得调用“indexOf”。*/ function uniq(array){ var temp = {}, r

批量修改逻辑复制表标识方式

阅读更多关于批量修改逻辑复制表标识方式

PG逻辑复制时，对表进行update 或者delete之后，解析出来的SQL需要在where条件上加以限制，从而防止出现在订阅端重放时出现较大的误差，这个时候就需要通过之前删除的旧值来做限定。限制的方式主要分四种 1、default：默认通过主键进行限定(非系统表的默认值)，仅保留主键旧值 2、nothing：不保留任何旧值（系统表默认） 3、full：保留所有旧值 4、using index ：保留唯一索引的旧值，唯一索引列需要保证非空。一般来说逻辑复制时，有主键是最好的，这样不用去修改直接可以用。其次是唯一索引，需要添加非空约束（如果业务上允许的话），但是需要手动去指定索引名。最后是full，这种方式会使得产生的WAL更大，不推荐。当库里表比较多，而且大多是需要手动修改复制标识的时候，可以使用脚本、存储过程、匿名块、程序的方式进行，手动操作耗费时间且容易出错。下面贴个匿名块修改的demo do language plpgsql $$ declare uniq text; rec record; cur1 cursor for select w.oid,w.relname,x.nspname from pg_class w,pg_namespace x where w.relnamespace=x.oid and w.relkind='r' and x.nspname

wc cut uniq sort 命令

阅读更多关于 wc cut uniq sort 命令

学习 wc cut uniq sort 四个命令： wc ：wc用来显示标准输出或者输入的文件的行、单词、字节个数。 wc-l: wc –l /etc/inittab(显示行数) wc-c: wc –c /etc/inittab(显示字节数) wc-m: wc –m /etc/inittab(显示字符数) wc-w: wc –w /etc/inittab(显示字节数) wc-L: wc –L /etc/inittab(显示最长一行字节数) cut-b ：按照字节来切割这个语句(空格也算一个字符) -b不能识别中文，在英文环境下-b和-c一样例如：cat test.txt I am oldboy my qq is 1234567 1、cut –b 3-4 test.txt (切割test.txt文件中第三和第四个字节：am) 2、cut –b -4 test.txt(切割test.txt文件中第四个字节之前的所有字节，包括第四个：I am) 3、cut –b 1,4- test.txt(切割test.txt文件中第一个字节和第四个字节之后的所有字节：Im oldboy my qq is 1234567) cut –c ：按照字符来切割除了能切割中文，英文与-b相同 cut –d: 指定分隔符(默认以tab键作为分隔符) 例如：head -1 /etc/passwd

nginx 访问统计

阅读更多关于 nginx 访问统计

标红的为用的比较多的 1.根据访问IP统计UV awk '{print $1}' access.log|sort | uniq -c |wc -l 2.统计访问URL统计PV awk '{print $7}' access.log|wc -l 3.查询访问最频繁的URL awk '{print $7}' access.log|sort | uniq -c |sort -n -k 1 -r|more 4.查询访问最频繁的IP awk '{print $1}' access.log|sort | uniq -c |sort -n -k 1 -r|more awk '{print $1}' access.log|sort | uniq -c |sort -n -k 1 -r|head -n 100 5.根据时间段统计查看日志一：使用 sed -n 匹配开始和结束精确度稍微低点，一般匹配到小时，若分钟或者秒，就可能匹配不到 cat access.log| sed -n '/14\/Mar\/2015:21/,/14\/Mar\/2015:22/p'|more 二：awk 查询更全一些，因为提取日期时间进行比较。 start_time 和 stop_time 自己手动或者自动生成格式（13/Aug/2019:16:47:14 ） tac access.log | awk -v

订阅 uniq