HDFS

第六讲:hadoop搭建伪分布式模式并做词频分析

梦想与她 提交于 2020-08-13 20:31:44
以下我们要进行: 1、搭建hadoop伪分布式模式,启动hdfs 2、上传文档到hdfs 3、对hdfs里面的文档进行词频分析 首先: 1、确保jdk安装正确 2、确保安装并配置hadoop ,以下是hadoop的版本 通过第四讲的配置启动hadoop服务,输入jps可以查看到 3、确保hdfs正常运行 ,通过网页可以查看到hdfs页面数据: 在浏览器输入:localhost:50070 4、新建一个本地文件 ,并且上传到hdfs上面 查看上传的文件内容: 5、使用命令进行词频分析 如果是hdfs已经启动的话,hadoop jar XXXX.jar wordcount 命令默认是访问hdfs里面的文件。 以上的命令:加入$hadoop_home ,系统会自动把配置文件里面的这个变量取出来,这样我就不需要cd进入到对应的文件夹,这里默认就是绝对路径了。 语句的意思:调用hadoop自带的hadoop-mapreduce-examples-2.9.2.jar 里面的wordcount 方法对hdfs里面的/user/liurihui/newWord.txt文档进行词频分析,分析结果存储在hdfs根目录下面的resultOut文件夹,系统会自动创建这个文件夹。 系统在词频分析的时候,我们看系统打印出来的日志,可以看到系统默认会在/user/liurihui/newWord

环境篇:数据同步工具DataX

£可爱£侵袭症+ 提交于 2020-08-13 09:12:16
环境篇:数据同步工具DataX 1 概述 https://github.com/alibaba/DataX DataX是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。 当前使用现状 DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。 2 支持数据 类型 数据源 Reader(读) Writer(写) 文档 RDBMS 关系型数据库 MySQL √ √ 读 、 写 Oracle √ √ 读 、 写 SQLServer √ √ 读 、 写 PostgreSQL √ √ 读 、 写 DRDS √ √ 读 、 写 达梦 √ √ 读 、 写 通用RDBMS(支持所有关系型数据库) √ √ 读 、 写 阿里云数仓数据存储 ODPS √ √ 读 、 写 ADS

快速搭建Kerberos服务端及入门使用

*爱你&永不变心* 提交于 2020-08-13 06:53:26
               快速搭建Kerberos服务端及入门使用                                            作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。      Kerberos是一种网络身份验证协议。 它旨在通过使用秘密密钥加密为客户端/服务器应用程序提供强身份验证。 麻省理工学院 可以免费实施该协议。Kerberos也可用于许多商业产品。    尽管有许多配置参数和设置,但配置一个受Kerberos管理的Hadoop集群还是相当简单的。只要清楚地了解在前面部分中介绍的Kerberos概念,就可以自信地使用Kerberos来保护集群。   总之,Kerberos是解决您的网络安全问题的解决方案。它通过网络提供身份验证和强大加密工具,帮助您保护整个企业的信息系统。 kerberos的官方地址: http://web.mit.edu/kerberos/ 。 一.搭建Kerberos服务器(node101.yinzhengjie.org.cn) 博主推荐阅读:   Kerberos的发布页面:https: // kerberos.org/dist/index.html   Kerberos的官方文档:http: // web.mit.edu/kerberos/krb5-1.17/doc/index.html  

KETTLE-Hadoop文件数据抽取及输出

孤街浪徒 提交于 2020-08-13 06:29:43
一、需求说明 将源表(T_USER)中的用户信息同步到Hadoop中,然后再抽取Hadoop文件中数据到文本文件中。 二、启动kettle 双击 Spoon.bat 就能启动 kettle 。 三、创建转换 1.Hadoop集群配置说明 首先需要从hadoop集群中(/../hadoop-3.1.2/etc/hadoop)复制core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml文件到shim文件夹中(..\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514),替换已有的文件。 注意要修改这些配置文件。比如hadoop节点的地址是不是正确等。由于core-site. xml 里面用的 hostname 连接的,而我们配置的时候用的 ip,所以需要修改core-site.xml为ip,然后重启Spoon。 由于Hadoop权限管理是弱管理,此处用户名和密码可以缺省。不过往Hadoop创建文件需要进行权限鉴证,所以此处修改Hadoop中的core-site.xml文件如下所示,表示不经过任何验证,所有用户拥有全部权限。(修改此配置需要重启hadoop): <property> <name>hadoop.security

谈谈Hadoop MapReduce和Spark MR实现

北战南征 提交于 2020-08-12 20:16:28
谈谈MapReduce的概念、Hadoop MapReduce和Spark基于MR的实现 什么是MapReduce? MapReduce是一种分布式海量数据处理的编程模型,用于大规模数据集的并行运算。 有以下几个特点: 分而治之,并行处理。 抽象了map和reduce的计算流程,对于分布式存储的数据可以并行的进行map处理,之后在reduce端对map结果进行汇总。 移动计算而非移动数据。 数据的计算传输需要大量的磁盘和网络IO。MapReduce会尽量在数据存储的节点执行计算,以减少不必要的开销。 Hadoop MapReduce 我们常说的MapReduce就是Hadoop MapReduce。 Hadoop MapReduce作业被分成 一系列运行在分布式集群中的map任务和reduce任务 ,每个任务都工作在被指定的小的数据自己上,因此负载是遍布集群中各个节点上的。 map任务负责 数据的载入、解析、转换和过滤。MapReduce作业的输入是一系列储存在HDFS中的文件。map任务的输出被称为中间键和中间值,会被发送到reduce端进行后续处理。 每个 reduce任务负责 处理map任务输出结果的一个子集。MapReduce确保每个reduce的输入都是按键排序的。 系统执行排序、将map输出作为输入传递给reduce的过程称为 shuffle

NVMe时代全面到来 华为距离登顶全球存储市场还有多远?

爱⌒轻易说出口 提交于 2020-08-12 16:34:00
走在存储行业前沿,华为NVMe SSD存储历尽千帆仍少年。 出品 | 常言道 作者 | 丁常彦 如果说全闪存是未来存储市场的大势所趋,那么NVMe SSD则是全闪存市场的发展大势; 如今,全球各大存储厂商都在加速推出基于NVMe的新一代存储产品,华为同样也在积极投身这一代表存储技术未来走向的前沿领域。 日前,入选华为“天才少年”的两名博士生,在加入华为后也将从事华为存储相关的研究,新型存储介质(NVM,SMR)、数据库和键值存储系统正是他们的研究方向之一。 事实上,早在2005年,华为就开始了闪存技术的研究,经过十多年的持续积累,目前华为已经是存储行业内拥有SSD盘片级专利最多的厂家之一。尤其 在NVMe(非易失性内存主机控制器接口规范)领域,华为更是在业内唯一端到端开发了NVMe SSD盘、NVMe闪存控制器和NVMe全闪存操作系统的企业,并在新一代OceanStor全闪存中率先实现了全系列端到端NVMe产品。 梁启超在《少年中国说》中如是说:少年智则国智,少年富则国富;少年强则国强,少年独立则国独立……通过“天才少年”计划聚拢高端人才的华为存储,不仅要成为NVMe SSD的引领者,距离登顶全球存储市场也已经不远。 成为存储事实标准 NVMe时代全面到来 NVM(非易失性存储器)是一种计算机即使关闭电源也能够保存已保存数据的存储器;与易失性存储器不同

Greenplum中装载和卸载数据

烂漫一生 提交于 2020-08-12 10:18:58
装载和卸载数据 GP装载概述 关于外部表 1) 外部表允许用户像访问标准数据库表一样访问外部表 2) 结合GP的并行文件分配程序(gpfdist),外部表支持在装载和卸载数据时全并行化利用所有segment实例的资源 3) GP还可以利用Hadoop分布式文件系统的并行架构来访问文件 4) GP提供了两种类型的外部表: 可读外部表:用于数据装载,不允许对数据进行修改 可写外部表:用于数据卸载,从数据库表中选择记录并输出到文件、命令管道或其他的可执行程序,包括并行MapReduce计算。只需允许INSERT 操作。 5) 按数据源不同,分为两种可读外部表: 常规的:访问静态的平面文件 WEB:访问动态数据源(比如wen服务或者OS的命令或脚本) 关于gpload 1) gpload是一个数据并行装载命令 2) 需要创建一个按照YAML格式定义的装载说明控制文件 关于copy 1) 标准PostgreSQL装载和卸载命令 2) 不具有并行装载/卸载的机制 定义外部表 概述 在创建外部表定义时,必须指定文件格式和文件位置;三种用来访问外部表数据源的协议:gpfdist, gpfdists和gphdfs。 gpfdist 1) 在外部表指定文件的所有主机上运行GP文件分发程序(gpfdist) 2) 该程序指向一个给定的目录,并行的为所有segment实例提供外部数据文件服务 3)

shell学习

偶尔善良 提交于 2020-08-12 08:54:41
一、crontab crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务工具,并且会自动启动crond进程,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。 Linux下的任务调度分为两类,系统任务调度和用户任务调度。 -l 在标准输出上显示当前的crontab。 -r 删除当前的crontab文件。 -e 使用VISUAL或者EDITOR环境变量所指的编辑器编辑当前的crontab文件。当结束编辑离开时,编辑后的文件将自动安装。 1、crontab文件的含义: 用户所建立的crontab文件中,每一行都代表一项任务,每行的每个字段代表一项设置,它的格式共分为六个字段,前五段是时间设定段,第六段是要执行的命令段,格式如下:minute hour day month week command 其中: minute: 表示分钟,可以是从0到59之间的任何整数。 hour:表示小时,可以是从0到23之间的任何整数。 day:表示日期,可以是从1到31之间的任何整数。 month:表示月份,可以是从1到12之间的任何整数。 week:表示星期几,可以是从0到7之间的任何整数,这里的0或7代表星期日。 command:要执行的命令,可以是系统命令

BigData:大数据的简介、核心知识(linux基础+Java/Python编程语言+Hadoop+Docker)、经典场景应用之详细攻略

不羁的心 提交于 2020-08-12 08:43:58
BigData:大数据的简介、核心知识(linux基础+Java/Python编程语言+Hadoop+Docker)、经典场景应用之详细攻略 BigData:大数据简介及以Hadoop生态系统为基础带你了解大数据必须掌握的那些知识(HDFS、HBase、Hive,Spark等等) 导读 : 大数定理 告诉我们,在试验不变的条件下,重复试验多次, 随机事件的频率近似于它概率 。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。 大数据的主要价值—— 辅助决策 。利用大数据分析,能够 总结经验、发现规律、预测趋势 ,这些都可以为辅助决策服务。 只有掌握的数据信息越多,人类的决策才能更加科学、精确、合理 。 目录 大数据简介 1、大数据的单位 2、大数据的5V特点——Volume、Velocity、Variety、Value、Veracity 3、大数据的价值体现 4、大数据与云计算密不可分 以Hadoop生态系统为基础带你了解大数据必须掌握的那些知识 大数据技术应用场景 1、经典应用场景 大数据核心技术 1、linux基础 2、编程语言——Java、Python 3、分布式存储框架——Hadoop生态系统+列式存储数据库HBase 4、资源调度框架——Docker 推荐文章 BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略

大数据中hive与传统并行数据库mysql的区别

蓝咒 提交于 2020-08-12 07:56:17
大数据中hive与传统并行数据库mysql的区别 由于hive采用了类似sql的查询语言HQL(Hive Query Language),所以对于初学者而言很容易把这二者搞混,但是事实上除了类似的查询语言外,二者并没有其他相同点。 #区别 二者的区别可以从数据量大小展开来讲 查询语言 为了便于熟悉SQL的java工程师开发,所以针Hive专门设计了类类SQL的查询语言,HQL; 数据存储位置; hive的数据是存在hdfs的,数据库的数据是存在快设备或者文件系统中的; 数据更新 数据库的数据更新是可以做到即时更新的(频繁的增删改查),而hive的数据是读多写少的(一次写入,多次读出),同时他是基于hadoop,所以它的操作都是追加操作,很难对数据进行修改; 索引 hive没办法添加索引 (同时也没必要进行添加索引,毕竟数据梁在那摆着),同时他是基于mr的,所以即使是暴力扫描全部数据,在大数据量的前提下,并行访问数据仍有很大优势; 执行 hive的执行引擎是mr,MySQL的执行引擎是innerdb; 执行延迟 hive因为mr的存在,所以他的操作仍是高延迟的,而数据库的执行延迟要低很多; 可拓展性 hvie拥有很高的可拓展性(毕竟是基于hadoop的),而数据库的拓展性相对来讲就很差,最先进的并行数据库Oracle在理论上的拓展能力也只有100台左右。 数据规模 这个就不用说啦