HDFS | 易学教程

第六讲：hadoop搭建伪分布式模式并做词频分析

阅读更多关于第六讲：hadoop搭建伪分布式模式并做词频分析

以下我们要进行： 1、搭建hadoop伪分布式模式，启动hdfs 2、上传文档到hdfs 3、对hdfs里面的文档进行词频分析首先： 1、确保jdk安装正确 2、确保安装并配置hadoop ,以下是hadoop的版本通过第四讲的配置启动hadoop服务，输入jps可以查看到 3、确保hdfs正常运行，通过网页可以查看到hdfs页面数据：在浏览器输入：localhost:50070 4、新建一个本地文件，并且上传到hdfs上面查看上传的文件内容： 5、使用命令进行词频分析如果是hdfs已经启动的话，hadoop jar XXXX.jar wordcount 命令默认是访问hdfs里面的文件。以上的命令：加入$hadoop_home ,系统会自动把配置文件里面的这个变量取出来，这样我就不需要cd进入到对应的文件夹，这里默认就是绝对路径了。语句的意思：调用hadoop自带的hadoop-mapreduce-examples-2.9.2.jar 里面的wordcount 方法对hdfs里面的/user/liurihui/newWord.txt文档进行词频分析，分析结果存储在hdfs根目录下面的resultOut文件夹，系统会自动创建这个文件夹。系统在词频分析的时候，我们看系统打印出来的日志，可以看到系统默认会在/user/liurihui/newWord

环境篇：数据同步工具DataX

阅读更多关于环境篇：数据同步工具DataX

环境篇：数据同步工具DataX 1 概述 https://github.com/alibaba/DataX DataX是什么？ DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。当前使用现状 DataX在阿里巴巴集团内被广泛使用，承担了所有大数据的离线同步业务，并已持续稳定运行了6年之久。目前每天完成同步8w多道作业，每日传输数据量超过300TB。 2 支持数据类型数据源 Reader(读) Writer(写) 文档 RDBMS 关系型数据库 MySQL √ √ 读、写 Oracle √ √ 读、写 SQLServer √ √ 读、写 PostgreSQL √ √ 读、写 DRDS √ √ 读、写达梦 √ √ 读、写通用RDBMS(支持所有关系型数据库) √ √ 读、写阿里云数仓数据存储 ODPS √ √ 读、写 ADS

快速搭建Kerberos服务端及入门使用

阅读更多关于快速搭建Kerberos服务端及入门使用

　　　　　　　　　　　　　　快速搭建Kerberos服务端及入门使用　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰版权声明：原创作品，谢绝转载！否则将追究法律责任。　　　　Kerberos是一种网络身份验证协议。它旨在通过使用秘密密钥加密为客户端/服务器应用程序提供强身份验证。麻省理工学院可以免费实施该协议。Kerberos也可用于许多商业产品。　　　尽管有许多配置参数和设置，但配置一个受Kerberos管理的Hadoop集群还是相当简单的。只要清楚地了解在前面部分中介绍的Kerberos概念，就可以自信地使用Kerberos来保护集群。　　总之，Kerberos是解决您的网络安全问题的解决方案。它通过网络提供身份验证和强大加密工具，帮助您保护整个企业的信息系统。 kerberos的官方地址： http://web.mit.edu/kerberos/ 。一.搭建Kerberos服务器（node101.yinzhengjie.org.cn）博主推荐阅读：　　Kerberos的发布页面：https: // kerberos.org/dist/index.html 　　Kerberos的官方文档：http: // web.mit.edu/kerberos/krb5-1.17/doc/index.html 　

KETTLE-Hadoop文件数据抽取及输出

阅读更多关于 KETTLE-Hadoop文件数据抽取及输出

一、需求说明将源表（T_USER）中的用户信息同步到Hadoop中，然后再抽取Hadoop文件中数据到文本文件中。二、启动kettle 双击 Spoon.bat 就能启动 kettle 。三、创建转换 1.Hadoop集群配置说明首先需要从hadoop集群中（/../hadoop-3.1.2/etc/hadoop）复制core-site.xml，hdfs-site.xml，yarn-site.xml，mapred-site.xml文件到shim文件夹中(..\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514)，替换已有的文件。注意要修改这些配置文件。比如hadoop节点的地址是不是正确等。由于core-site. xml 里面用的 hostname 连接的，而我们配置的时候用的 ip，所以需要修改core-site.xml为ip,然后重启Spoon。由于Hadoop权限管理是弱管理，此处用户名和密码可以缺省。不过往Hadoop创建文件需要进行权限鉴证，所以此处修改Hadoop中的core-site.xml文件如下所示，表示不经过任何验证，所有用户拥有全部权限。(修改此配置需要重启hadoop)： <property> <name>hadoop.security

谈谈Hadoop MapReduce和Spark MR实现

阅读更多关于谈谈Hadoop MapReduce和Spark MR实现

谈谈MapReduce的概念、Hadoop MapReduce和Spark基于MR的实现什么是MapReduce？ MapReduce是一种分布式海量数据处理的编程模型，用于大规模数据集的并行运算。有以下几个特点：分而治之，并行处理。抽象了map和reduce的计算流程，对于分布式存储的数据可以并行的进行map处理，之后在reduce端对map结果进行汇总。移动计算而非移动数据。数据的计算传输需要大量的磁盘和网络IO。MapReduce会尽量在数据存储的节点执行计算，以减少不必要的开销。 Hadoop MapReduce 我们常说的MapReduce就是Hadoop MapReduce。 Hadoop MapReduce作业被分成一系列运行在分布式集群中的map任务和reduce任务，每个任务都工作在被指定的小的数据自己上，因此负载是遍布集群中各个节点上的。 map任务负责数据的载入、解析、转换和过滤。MapReduce作业的输入是一系列储存在HDFS中的文件。map任务的输出被称为中间键和中间值，会被发送到reduce端进行后续处理。每个 reduce任务负责处理map任务输出结果的一个子集。MapReduce确保每个reduce的输入都是按键排序的。系统执行排序、将map输出作为输入传递给reduce的过程称为 shuffle

NVMe时代全面到来华为距离登顶全球存储市场还有多远？

阅读更多关于 NVMe时代全面到来华为距离登顶全球存储市场还有多远？

走在存储行业前沿，华为NVMe SSD存储历尽千帆仍少年。出品 | 常言道作者 | 丁常彦如果说全闪存是未来存储市场的大势所趋，那么NVMe SSD则是全闪存市场的发展大势；如今，全球各大存储厂商都在加速推出基于NVMe的新一代存储产品，华为同样也在积极投身这一代表存储技术未来走向的前沿领域。日前，入选华为“天才少年”的两名博士生，在加入华为后也将从事华为存储相关的研究，新型存储介质(NVM，SMR)、数据库和键值存储系统正是他们的研究方向之一。事实上，早在2005年，华为就开始了闪存技术的研究，经过十多年的持续积累，目前华为已经是存储行业内拥有SSD盘片级专利最多的厂家之一。尤其在NVMe（非易失性内存主机控制器接口规范）领域，华为更是在业内唯一端到端开发了NVMe SSD盘、NVMe闪存控制器和NVMe全闪存操作系统的企业，并在新一代OceanStor全闪存中率先实现了全系列端到端NVMe产品。梁启超在《少年中国说》中如是说：少年智则国智，少年富则国富；少年强则国强，少年独立则国独立……通过“天才少年”计划聚拢高端人才的华为存储，不仅要成为NVMe SSD的引领者，距离登顶全球存储市场也已经不远。成为存储事实标准 NVMe时代全面到来 NVM（非易失性存储器）是一种计算机即使关闭电源也能够保存已保存数据的存储器；与易失性存储器不同

Greenplum中装载和卸载数据

阅读更多关于 Greenplum中装载和卸载数据

装载和卸载数据 GP装载概述关于外部表 1) 外部表允许用户像访问标准数据库表一样访问外部表 2) 结合GP的并行文件分配程序(gpfdist)，外部表支持在装载和卸载数据时全并行化利用所有segment实例的资源 3) GP还可以利用Hadoop分布式文件系统的并行架构来访问文件 4) GP提供了两种类型的外部表：可读外部表：用于数据装载，不允许对数据进行修改可写外部表：用于数据卸载，从数据库表中选择记录并输出到文件、命令管道或其他的可执行程序，包括并行MapReduce计算。只需允许INSERT 操作。 5) 按数据源不同，分为两种可读外部表：常规的：访问静态的平面文件 WEB：访问动态数据源（比如wen服务或者OS的命令或脚本）关于gpload 1) gpload是一个数据并行装载命令 2) 需要创建一个按照YAML格式定义的装载说明控制文件关于copy 1) 标准PostgreSQL装载和卸载命令 2) 不具有并行装载/卸载的机制定义外部表概述在创建外部表定义时，必须指定文件格式和文件位置；三种用来访问外部表数据源的协议：gpfdist, gpfdists和gphdfs。 gpfdist 1) 在外部表指定文件的所有主机上运行GP文件分发程序(gpfdist) 2) 该程序指向一个给定的目录，并行的为所有segment实例提供外部数据文件服务 3)

shell学习

阅读更多关于 shell学习

一、crontab crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程，与windows下的计划任务类似，当安装完成操作系统后，默认会安装此服务工具，并且会自动启动crond进程，crond进程每分钟会定期检查是否有要执行的任务，如果有要执行的任务，则自动执行该任务。 Linux下的任务调度分为两类，系统任务调度和用户任务调度。 -l 在标准输出上显示当前的crontab。 -r 删除当前的crontab文件。 -e 使用VISUAL或者EDITOR环境变量所指的编辑器编辑当前的crontab文件。当结束编辑离开时，编辑后的文件将自动安装。 1、crontab文件的含义：用户所建立的crontab文件中，每一行都代表一项任务，每行的每个字段代表一项设置，它的格式共分为六个字段，前五段是时间设定段，第六段是要执行的命令段，格式如下：minute hour day month week command 其中： minute：表示分钟，可以是从0到59之间的任何整数。 hour：表示小时，可以是从0到23之间的任何整数。 day：表示日期，可以是从1到31之间的任何整数。 month：表示月份，可以是从1到12之间的任何整数。 week：表示星期几，可以是从0到7之间的任何整数，这里的0或7代表星期日。 command：要执行的命令，可以是系统命令

BigData：大数据的简介、核心知识(linux基础+Java/Python编程语言+Hadoop+Docker)、经典场景应用之详细攻略

阅读更多关于 BigData：大数据的简介、核心知识(linux基础+Java/Python编程语言+Hadoop+Docker)、经典场景应用之详细攻略

BigData：大数据的简介、核心知识(linux基础+Java/Python编程语言+Hadoop+Docker)、经典场景应用之详细攻略 BigData：大数据简介及以Hadoop生态系统为基础带你了解大数据必须掌握的那些知识(HDFS、HBase、Hive，Spark等等) 导读：大数定理告诉我们，在试验不变的条件下，重复试验多次，随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下，往往呈现几乎必然的统计特性。大数据的主要价值—— 辅助决策。利用大数据分析，能够总结经验、发现规律、预测趋势，这些都可以为辅助决策服务。只有掌握的数据信息越多，人类的决策才能更加科学、精确、合理。目录大数据简介 1、大数据的单位 2、大数据的5V特点——Volume、Velocity、Variety、Value、Veracity 3、大数据的价值体现 4、大数据与云计算密不可分以Hadoop生态系统为基础带你了解大数据必须掌握的那些知识大数据技术应用场景 1、经典应用场景大数据核心技术 1、linux基础 2、编程语言——Java、Python 3、分布式存储框架——Hadoop生态系统+列式存储数据库HBase 4、资源调度框架——Docker 推荐文章 BigData之Hadoop：Hadoop的简介、深入理解、下载、案例应用之详细攻略

大数据中hive与传统并行数据库mysql的区别

阅读更多关于大数据中hive与传统并行数据库mysql的区别

大数据中hive与传统并行数据库mysql的区别由于hive采用了类似sql的查询语言HQL（Hive Query Language）,所以对于初学者而言很容易把这二者搞混，但是事实上除了类似的查询语言外，二者并没有其他相同点。 #区别二者的区别可以从数据量大小展开来讲查询语言为了便于熟悉SQL的java工程师开发，所以针Hive专门设计了类类SQL的查询语言，HQL；数据存储位置； hive的数据是存在hdfs的，数据库的数据是存在快设备或者文件系统中的；数据更新数据库的数据更新是可以做到即时更新的（频繁的增删改查），而hive的数据是读多写少的（一次写入，多次读出），同时他是基于hadoop，所以它的操作都是追加操作，很难对数据进行修改；索引 hive没办法添加索引（同时也没必要进行添加索引，毕竟数据梁在那摆着），同时他是基于mr的，所以即使是暴力扫描全部数据，在大数据量的前提下，并行访问数据仍有很大优势；执行 hive的执行引擎是mr，MySQL的执行引擎是innerdb；执行延迟 hive因为mr的存在，所以他的操作仍是高延迟的，而数据库的执行延迟要低很多；可拓展性 hvie拥有很高的可拓展性（毕竟是基于hadoop的），而数据库的拓展性相对来讲就很差，最先进的并行数据库Oracle在理论上的拓展能力也只有100台左右。数据规模这个就不用说啦

订阅 HDFS