- spark
- pandas
- awk
- 其他时间序列数据库.
- SQL
netstat -n|awk '/^tcp/ {++arr[$NF]} END{for(k in arr)print k,arr[k]}'
spark 什么要做shuffle?
节点间通信,免去了数据的重复计算. 为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题,
http://people.csail.mit.edu/matei/papers/2012/nsdi_spark.pdf
来源:oschina
链接:https://my.oschina.net/innovation/blog/3133625