Cloudera

hadoop hdfs points to file:/// not hdfs://

二次信任 提交于 2021-02-07 13:44:02
问题 So I installed Hadoop via Cloudera Manager cdh3u5 on CentOS 5. When I run cmd hadoop fs -ls / I expected to see the contents of hdfs://localhost.localdomain:8020/ However, it had returned the contents of file:/// Now, this goes without saying that I can access my hdfs:// through hadoop fs -ls hdfs://localhost.localdomain:8020/ But when it came to installing other applications such as Accumulo, accumulo would automatically detect Hadoop Filesystem in file:/// Question is, has anyone ran into

基于Docker的大数据开发环境

折月煮酒 提交于 2021-02-06 20:37:25
大数据开发对运行环境和数据的依赖比较重,比如开发Spark应用,往往会依赖Hive,但本地开发环境是没有Hive的,所以需要在本地和服务器之间拷贝代码,效率不高,我认为用Docker在本地搭建一套单机的大数据集群,然后将代码拷贝到容器里进行测试,可以改善这种情况。我自己对这个思路做过探索:https://github.com/iamabug/BigDataParty,这个镜像安装了Hadoop、Hive、Spark等组件,基本可以满足需求,但是也有一些问题存在,比如有时需要对配置进行调整来保持和生产环境的一致性,虽然可以做,但工作量也不少。 其实,CDH和HDP都提供了类似的单机镜像,其中HDP中组件的版本比较新,并且和公司的技术栈一致,因此来探索一下,如果体验更好的话,以后就用它来进行相关的开发了。 CDH镜像相关:https://hub.docker.com/r/cloudera/quickstart/ HDP镜像相关:https://www.cloudera.com/tutorials/sandbox-deployment-and-install-guide/3.html Sandbox获取 系统要求 安装Docker 17.09 或更新的版本 对于Windows和Mac,Docker需要配置10G以上的内存 脚本下载与执行 可以在浏览器里访问https://www

cloudera第7天

会有一股神秘感。 提交于 2021-01-30 10:09:02
所谓·生活 就是一系列下定决心的努力 · 正 · 文 · 来 · 啦 · Cloudera实时初学者教程 欢迎来到Cloudera QuickStart VM, Cloudera Live的一部分!跟随本教程,您不仅将了解如何开始使用CDH (Cloudera的开源发行版,包括Apache Hadoop)中提供的一些工具,还将了解提出更大的问题意味着什么。在本教程结束时,您将: 了解如何在CDH中使用一些强大的工具 了解如何设置和执行一些基本的商业智能和分析用例 步骤 进入你的指导页面 点击“启动Cloudera管理器”链接 检查上面列出的服务旁边是否有一个绿色圆圈。 如果为灰色的方块 那么就是停止状态 如下图所示启动 启动/重新启动服务 单击服务名称右侧的下拉菜单 单击Start或Restart 3.等待您的服务变为绿色 启动成功 现在您已经验证了您的服务是健康的并显示为绿色,您可以继续。 ‘ 所谓成功 ’ 坚持把简单的事情做好就是 不简单 , 坚持把平凡的事情做好就是 不平凡 。 每个人都有潜在的能量, 只是很容易-- 被 习惯 所掩盖, 被 时间 所迷离, 被 惰性 所消磨。 那么, 成功 呢? 就是 在 平凡中 做出 不平凡 的 坚持 。 长按二维码关注我们吧 期待您的进步 ▽ 本文分享自微信公众号 - DataScience(DataScienceTeam)。 如有侵权

数禾云上数据湖最佳实践

吃可爱长大的小学妹 提交于 2021-01-21 16:43:59
目录 1. 数禾科技 2. 云上自建CDH 3. 云上混合架构 4. 阿里云第一代数据湖 4.1. 什么是数据湖 4.2. 阿里云数据湖设计 4.2.1. 阿里云数据湖整体架构 4.2.2. 统一存储和元数据管理 4.2.3. 多EMR多OSS桶设计 4.2.4. 分布式调度系统设计 4.2.5. 用户权限系统设计 4.2.6. EMR弹性伸缩设计 4.2.7. 负载均衡管理 4.2.8. OSS桶生命周期管理 4.2.9. 日志管理 4.2.10. 终端权限管理 4.2.11. 组件UI管理 4.2.12. 监控告警管理 4.2.13. 即席查询设计 4.2.14. 集群安全组设计 4.2.15. 数据脱敏设计 4.2.16. YARN队列设计 4.3. 数据湖EMR治理 4.3.1. 调整EMR预伸缩时间 4.3.2. 更改EMR弹性伸缩策略 4.3.3. 优化EMR云盘空间 4.3.4. EMR机器组的选择 4.3.5. EMR成本控制 4.3.6. 购买RI预留抵扣券 4.3.7. 弹性保障 4.4. 数据湖OSS治理 4.4.1. 数仓ODS多版本桶治理 4.4.2. 数仓日志桶治理 4.4.3. 数仓桶和集市桶治理 4.4.4. 监控桶内对象 5. 阿里云第二代数据湖 5.1. 阿里云数据湖构建 5.2. 阿里云数据湖解决方案 1.数禾科技 数禾科技成立于2015年8月

微服务和大数据性能指标参考和相关组件

穿精又带淫゛_ 提交于 2021-01-13 10:15:12
发布时间:19-07-1720:12 一、引言 本文题为微服务和大数据性能指标参考,但实际上,无论是单体架构还是分布式架构、数据规模如何,在设计和开发各种功能性模块时,都需要提前考虑高性能需求水平并按需设计,对各种性能指标进行合理评估,从而尽量减少代码重构的可能性。 在完成功能模块的开发以后,还需要使用各种压力测试工具进行性能测试,从而判断代码是否能够满足性能要求,并找出性能瓶颈所在。 为了作出更加合理的性能评估值,我们需要先大概的了解一些常用的计算机操作所消耗的时间,从而心中有数的设计出一个符合需求、且易于实现的系统,减小线上系统失败的风险,并能够做到心中有数。 二、常用应用层性能指标参考标准 以下标准是使用PC X86 桌面机器的经验值,并不代表使用线上生产机器的经验值,仅供参考,评审时应该根据机器的不同进行调整。 2.1 通用标准 容量按照峰值的5倍冗余计算。分库分表后的容量一般可存储N年的数据(根据不同机器调整)。第三方查询接口吞吐量为5000/s。单条数据库记录占用大约1KB的空间。 2.2 MySQL 单端口读:1000/s。单端口写:700/s。单表容量:5000万条。 2.3 Redis 单端口读:40000/s。单端口写:40000/s。单端口内存容量:32GB。 2.4 Kafka 单机读:30000/s。单机写:5000/s。2.5 Flume HDFS

0561-04-如何将CDH集成的KDC迁移至FreeIPA的Kerberos认证

谁说我不能喝 提交于 2021-01-11 03:04:25
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1 文档编写目的 前面Fayson介绍了《 0558-01-如何在Redhat7上安装FreeIPA 》和《 0559-02-如何在Redhat7上安装FreeIPA的客户端 》,那如何在CDH集群中使用?通过Cloudera Manager可以为我们的CHD集群启用Kerberos认证,在前面的文章《 如何为CDH集成Active Directory的Kerberos认证 》和《 如何在CDH集群启用Kerberos 》介绍了集成不同服务的Kerberos认证,本篇文章Fayson主要介绍如何将CDH集成的KDC服务切换至FreeIPA下的Kerberos认证。 测试环境 1. RedHat7.3 2. FreeIPA4.6.4 3.CM和CDH版本为5.15.0 2 环境准备 1.确认CDH机器所有节点已安装了FreeIPA Client,可以参考Fayson上一篇文章《 02-如何在Redhat7上安装FreeIPA的客户端 》 2. 安装完成 FreeIPA 客户端后,修改集群所有节点 krb.conf 文件 3. 在 FreeIPA 上创建一个

CDH- CDH大数据集群运维

一笑奈何 提交于 2021-01-07 23:47:11
CDH前端CM监控不正常(未解决) Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor. Request to the Host Monitor failed. This may cause slow page responses. View the status of the Host Monitor. Unable to issue query: the Host Monitor is not running 检查event server 日志 [root@ip- xxx cloudera-scm-eventserver]# pwd /var/log/cloudera-scm- eventserver [root@ip - xxx cloudera-scm-eventserver]# tail -f -n 1000 mgmt-cmf-mgmt-EVENTSERVER-ip- xxx .out 日志显示 2018 - 06 - 14 22 : 01 : 34 , 393 INFO com.cloudera.enterprise.ssl.SSLFactory: Using configured

如何在Redhat7.4的CDH5.15中启用Kerberos

﹥>﹥吖頭↗ 提交于 2021-01-07 07:27:25
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 在前面的文章中,Fayson介绍了《 如何在Redhat7.4安装CDH5.15 》,这里我们基于这个环境开始安装MIT Kerberos。关于在CDH中启用Kerberos也可以参考之前的文章《 如何在CDH集群启用Kerberos 》,《 如何在Redhat7.3的CDH5.14中启用Kerberos 》和《 如何在CDH6.0.0-beta1中启用Kerberos 》。本文Fayson主要介绍如何而在Redhat7.4的CDH5.15中启用Kerberos。 内容概述: 1.如何安装及配置KDC服务 2.如何通过CDH启用Kerberos 3.如何登录Kerberos并访问Hadoop相关服务 4.总结 测试环境: 1.操作系统:Redhat7.4 2.CDH5.15 3.采用root用户进行操作 2.KDC服务安装及配置 本文档中将KDC服务安装在Cloudera Manager Server所在服务器上(KDC服务可根据自己需要安装在其他服务器) 1.在Cloudera Manager服务器上安装KDC服务 [root@ip-

如何在CDH6.0中启用Kerberos

柔情痞子 提交于 2021-01-05 03:00:41
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 在前面的文章中,Fayson介绍了《 如何在Redhat7.4安装CDH6.0 》,这里我们基于这个环境开始安装Kerberos。关于CDH启用Kerberos的文章,前面Fayson也介绍过《 如何在CDH集群启用Kerberos 》、《 如何在Redhat7.3的CDH5.14中启用Kerberos 》、《 如何在Redhat7.4的CDH5.15中启用Kerberos 》和《 如何在CDH6.0.0-beta1中启用Kerberos 》,通过本文,我们也可以来看看CDH6启用Kerberos有哪些不一样的地方。 内容概述: 1.如何安装及配置KDC服务 2.如何通过CDH启用Kerberos 3.如何登录Kerberos并访问Hadoop相关服务 4.总结 测试环境: 1.操作系统:Redhat7.4 2.CDH6.0 3.采用root用户进行操作 2.KDC服务安装及配置 本文档中将KDC服务安装在Cloudera Manager Server所在服务器上(KDC服务可根据自己需要安装在其他服务器) 1.在Cloudera

Excel连接Impala

早过忘川 提交于 2020-12-29 11:19:16
本文属于技巧类,无需太多任何背景。Impala知识,请参考 Impala基础知识 步骤: 下载安装驱动 下载 Impala ODBC驱动 msi 安装文件并傻瓜式安装; cloudera官网需要注册,或者可以从其他地方找到下载地址。 配置连接信息 创建Impala odbc 点击64位(应该没有用32位的)配置项,弹窗如下,点击添加,弹出右侧窗口: 选择刚才安装好的ODBC Driver for Impala 输入必备的信息,如 host:port,选择用户名密码认证方式,输入username/password,勾选保存密码,勾选使用SASL,测试连接,如果连接失败,说明上面4个配置项信息有误。 Excel连接数据源 打开Excel,此处是Excel2016,切换到数据tab页,点击自其他来源,选择来自数据连接向导: 此处选择其他/高级,点击下一步: 关键的一步: 此处选择ODBC,然后点击下一步: 选择刚才新建的数据源,下面再输一次用户名/密码,勾选运行保存密码,测试连接。成功即可看到选择数据库和数据表的界面: 随便选择一张有数据的表,即能看到数据,随后即可进行数据分析工作: 来源: oschina 链接: https://my.oschina.net/u/4270922/blog/4867756