大数据学习(一) | 初识 Hadoop
作者: seriouszyx 首发地址: https://seriouszyx.top/ 代码均可在 Github 上找到(求Star) 最近想要了解一些前沿技术,不能一门心思眼中只有 web,因为我目前对 Java 语言及其生态相对熟悉,所以在网上搜集了 Hadoop 相关文章,并做了整合。 本篇文章在于对大数据以及 Hadoop 有一个直观的概念,并上手简单体验。 Hadoop 基础概念 Hadoop 是一个用 Java 实现的开源框架,是一个分布式的解决方案,将大量的信息处理所带来的压力分摊到其他服务器上。 在了解各个名词之前,我们必须掌握一组概念。 结构化数据 vs 非结构化数据 结构化数据 即行数据,存储在数据库里,可以用二维表结构来表达,例如:名字、电话、家庭住址等。 常见的结构化数据库为 mysql、sqlserver。 非结构化数据库 是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。无法用结构化的数据模型表示,例如:文档、图片、声音、视频等。在大数据时代,对非关系型数据库的需求日益增加,数据库技术相应地进入了“后关系数据库时代”。 非结构化数据库代表为 HBase、mongodb。 可以大致归纳,结构化数据是先有结构、再有数据;非结构化数据是先有数据、再有结构。 Hadoop 是大数据存储和计算的开山鼻祖