分布式内存文件系统

分布式内存文件系统:Tachyon

↘锁芯ラ 提交于 2020-03-20 21:58:10
3 月,跳不动了?>>> Tachyon 是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存储在 Tachyon 里的文件。Tachyon是架构在最底层的分布式文件系统和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率,减少内存冗余,减少GC时间等。 Tachyon架构 Tachyon的架构是传统的Master—Slave架构,这里和Hadoop类似,TachyonMaster里WorkflowManager是 Master进程,因为是为了防止单点问题,所以通过Zookeeper做了HA,可以部署多台Standby Master。Slave是由Worker Daemon和Ramdisk构成。Ramdisk使用off heap memory。Master和Worker直接的通讯协议是Thrift。 下图是Tachyon的架构 : Fault Tolerant Tachyon的容错机制是怎么样的呢? Tachyon使用lineage这个我们在Spark的RDD里已经很熟悉的概念,通过异步的向Tachyon的底层文件系统做Checkpoint。 当我们向Tachyon里面写入文件的时候,Tachyon会在后台异步的把这个文件给checkpoint到它的底层存储,比如HDFS,S3..