[2019好程序员大数据教程]SparkGraphx从入门到精通(33集视频+源码+笔记)
1、什么是 Spark GraphX ? Spark GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如微信、QQ、微博的用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理,Spark GraphX就是一种分布式图处理框架。 2、 Spark GraphX 优点: 相对于其他分布式图计算框架,Graphx最大的贡献,也是大多数开发喜欢它的原因是,在Spark之上提供了一站式解决方案,可以方便且高效地完成图计算的一整套流水作业;即在实际开发中,可以使用核心模块来完成海量数据的清洗与与分析阶段,SQL模块来打通与数据仓库的通道,Streaming打造实时流处理通道,基于GraphX图计算算法来对网页中复杂的业务关系进行计算,最后使用MLLib以及SparkR来完成数据挖掘算法处理。 Spark GraphX的整体架构 (1)存储层和原语层:Graph类是图计算的核心类,内部含有VertexRDD、EdgeRDD和RDD。GraphImpl是Graph类的子类,实现了图操作。 (2)接口层:在底层RDD的基础之上实现Pragel模型,BSP模式的计算接口。 (3)算法层:基于Pregel接口实现了常用的图算法。包含:PageRank、SVDPlusPlus、TriangleCount