spark pandas awk 其他时间序列数据库. SQL netstat -n|awk '/^tcp/ {++arr[$NF]} END{for(k in arr)print k,arr[k]}' spark 什么要做shuffle? 节点间通信,免去了数据的重复计算. 来源:https://my.oschina.net/innovation/blog/3133625 标签 Apache Spark