分布式内存

分布式内存文件系统Tachyon介绍

人盡茶涼 提交于 2020-03-20 22:13:24
3 月,跳不动了?>>> 1 、 Tachyon 介绍 1.1 Tachyon 简介 随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来,内存的吞吐量成指数倍增长,而磁盘的吞吐量增长缓慢,那么将原有计算框架中文件落地磁盘替换为文件落地内存,也是提高效率的优化点。 目前已经使用基于内存计算的分布式计算框架有: Spark 、 Impala 及 SAP 的 HANA 等。但是其中不乏一些还是有文件落地磁盘的操作,如果能让这些落地磁盘的操作全部落地到一个共享的内存中,那么这些基于内存的计算框架的效率会更高。 Tachyon 是 AmpLab 的 李浩源 所开发的一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在 Tachyon 里的文件。 Tachyon 是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到 DFS 里的文件落地到分布式内存文件系统中来达到共享内存,从而提高效率。同时可以减少内存冗余、 GC 时间等, Tachyon 的在大数据中层次关系如下图所示: Tachyon 允许文件以内存的速度在集群框架中进行可靠的共享,就像 Spark 和 MapReduce 那样。通过利用信息继承、内存侵入, Tachyon