杉岩海量图片分布式存储解决方案
随着互联网、云计算及大数据等信息技术的发展,越来越多的应用依赖于对海量数据的存储和处理,如智能监控、电子商务、地理信息等,这些应用都需要对海量图片的存储和检索。由于图片大多是小文件(80%大小在数MB以内),以GFS、HDFS为代表的适用于流式访问大文件的分布式存储系统,若直接用来存储图片,由于元数据膨胀,在扩展性和性能方面均存在严重问题。 为了解决HDFS在小文件存储方面的问题,通常的做法是先将很多小文件合并成一个大文件再保存到HDFS,同时为这些小文件建立索引,以便进行快速存取。典型技术包括Hadoop自带的Archive、SequenceFile,但均需要用户自己编写程序,实现小文件的合并。为了实现小文件合并对用户的透明,需从系统层面解决HDFS小文件问题。论文针对具体应用场景进行了探索,但不具有通用性。 SandStone MOS海量图片解决方案 对于海量图片数据的存储问题,杉岩海量对象存储(SandStone MOS)解决方案采用去中心化分布式架构,同时利用软件定义的方式实现了单一名字空间条件下数百PB级规模的容量扩展,业务可以随时随地访问而不受数据存储位置的限制。 在提升海量小文件访问性能方面,SandStone MOS利用哈希计算实现了数亿级文件的高效访问。针对文件检索困难,SandStone MOS支持标签功能,文件存储时会自动设置标签,从而更好地与业务结合