Hadoop实战读书笔记(5)
HDFS 文件操作 你可以把一个大数据集( 100TB )在 HDFS 中存储为单个文件,而大多数其他的文件系统无力实现这一点。虽然该文件存在多个副本分布在多台机器上来支持并行处理,你也不必考虑这些细节。 HDFS ( Hadoop Distribution File System )文件系统到底是一个怎样的文件系统? 并不是一个 Unix 文件系统,不支持像 ls 和 cp 这种标准的 Unix 文件命令,也不支持如 fopen() 和 fread() 这样的标准文件读写操作。但是 Hadoop 提供了一套与 Linux 文件命令类似的命令行工具。 一个典型的 Hadoop 工作流是指? 1 、在别的地方生成数据文件(如日志文件)再将其复制到 HDFS 中。 2 、由 MapReduce 程序处理这个数据,读取 HDFS 文件并将之解析为独立的记录(键 / 值对) 3 、除非要定制数据的导入与导出,否则你几乎不必编程来读写 HDFS 文件。 Hadoop 文件命令采取的形式是? hadoop fs -cmd <args> cmd 是具体的文件命令,而 <args> 是一组数目可变的参数。 cmd 的命名通常与 UNIX 对应的命令名相同。如,文件列表的命令为: hadoop fs -ls Hadoop 最常用的文件管理任务包括? 1 、添加文件和目录 2 、获取文件 3