Hive | 易学教程

如何在集群外节点跨网段向HDFS写数据

阅读更多关于如何在集群外节点跨网段向HDFS写数据

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的最近后台有位兄弟向Fayson提了一个问题，原文如下： “ 就是我的hdfs机器配置两个ip，一个外部可以访问，一个内部互联的地址，机器的hostname都是配置内网地址，现在有一个集群外的机器要写hdfs文件，发现namenode分配的datanode的地址是内网地址，不能访问到，这个不知道怎么去配置了。 ” Fayson想了想这个问题其实在各个环境是都可能碰到的，于是在这篇文章给大家系统介绍一下。在做Hadoop应用开发时有多种方式访问HDFS文件系统（如：FileSystem、WebHdfsFileSystem），Fayson前面的文章《如何使用Java代码访问HDFS.docx 》已讲过使用FileSystem访问HDFS。另外一种基于REST的API实现，分为两种一种是Hortonworks提供的WebHDFS默认的与Hadoop集成，一种是Cloudera 提供的HttpFS需要安装独立的HttpFS服务。本篇文章主要介绍如何使用WebHdfs和HttpFS方式访问HDFS。两种方式具体架构如下图：内容概述 1

Hive(4)-Hive的数据类型

阅读更多关于 Hive(4)-Hive的数据类型

一. 基本数据类型 Hive 数据类型 Java 数据类型长度例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整数 20 INT int 4byte 有符号整数 20 BIGINT long 8byte 有符号整数 20 BOOLEAN boolean 布尔类型， true 或者 false TRUE FALSE FLOAT float 单精度浮点数 3.14159 DOUBLE double 双精度浮点数 3.14159 STRING string 字符系列。可以指定字符集。可以使用单引号或者双引号。 ‘ now is the time ’ “ for all good men ” TIMESTAMP 时间类型 BINARY 字节数组对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。二.集合数据类型数据类型描述语法示例 STRUCT 和 c 语言中的 struct 类似，都可以通过“点”符号访问元素内容。例如，如果某个列的数据类型是 STRUCT{first STRING, last STRING}, 那么第 1 个元素可以通过字段 .first 来引用。 struct()

Hive join连接问题

阅读更多关于 Hive join连接问题

hive 的join只支持等值连接，并且只能用and，不可以使用or left semi on：左半连接，右表的过滤只能在join条件中，而且右表中的列不能出现在select和where中，也就是说，左半连接只能显示左表中的数据来源： oschina 链接： https://my.oschina.net/u/4252423/blog/4693023

关于数据仓库的架构及3大类组件工具选型

阅读更多关于关于数据仓库的架构及3大类组件工具选型

关于数据仓库的概念、原理、建设方法论，网上已经有很多内容了，也有很多的经典书籍，本文更想聊聊企业数据仓库项目上的架构和组件工具问题。先来谈谈架构。企业数据仓库架构关于数据仓库，有一种简单粗暴的说法，就是“任何数据仓库都是通过数据集成工具连接一端的原始数据和另一端的分析界面的数据库”。数据仓库用来管理企业庞大的数据集，提供转换数据、移动数据并将其呈现给终端用户的存储机制。许多架构方法以这样或那样的方式扩展数据仓库的能力，我们讲集中讨论最本质的问题，在不考虑过多技术细节的情况下，整个层次架构可以被划分为4层：原始数据层（数据源）数据仓库架构形态数据的采集、收集、清洗和转换应用分析层单层架构（直连）大多数情况下，数据仓库是一个关系型数据库，包含了允许多维数据的模块，或者分为多个易于访问的多主题信息域，最简单的数据仓库只有一层架构。单层架构就以为着数据仓库与分析接口直接连接（直连），终端用户可以直接查询。但简单有其弊端和适用性：传统上数据仓库的存储从 100GB 起，直连可能会导致数据查询处理速度慢，因为要直接从数据仓库查询准确的数据，或者是准确的输入，过程中要过滤掉很多非必要数据，这对数据库以及前端BI工具的性能要求相当高，基本性能不会太高。另外，在处理复杂维度分析时性能也受限，由于其缓慢性和不可预测性，很少应用在大型数据平台。要执行高级数据查询

用户画像产品化涵盖的功能模块以及应用场景

阅读更多关于用户画像产品化涵盖的功能模块以及应用场景

开发画像后的标签数据，如果只是“躺在”数据仓库中，并不能发挥更大的业务价值。只有将画像数据产品化后才能更便于业务方使用。在本文中，Web端展示的数据都读取自MySQL这类的关系型数据库，MySQL中存储的数据源自Hive加工后，通过Sqoop同步的结果集。本问主要介绍用户画像产品化后主要可能涵盖到的功能模块，以及这些功能模块的应用场景。 01 　即时查询即时查询功能主要面向数据分析师。将用户画像相关的标签表、用户特征库相关的表开放出来供数据分析师查询。 Hive存储的相关标签表，包括userid和cookieid两个维度。 dw.userprofile_attritube_all：存储用户人口属性维度的标签。 dw.userprofile_action_all：存储用户行为属性维度的标签。 dw.userprofile_consume_all：存储用户消费商品维度的标签。 dw.userprofile_riskmanage_all：存储风控维度的标签。 dw.userprofile_social_all：存储社交维度的标签。 dw.userprofile_cookielabel_map_all：对每个cookieid身上的标签做汇聚后输出。 dw.userprofile_usergroup_labels_all：用户人群分组表。查询应用到业务系统下面

CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

阅读更多关于 CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

配置namenode HA高可用使用cloudera manager方式安装，namenode是单节点方式，需要额外配置成HA。配置NameNode HA的两点前提条件：（1）至少是3个或3个以上奇数个JournalNode，否则将无法继续配置NameNode HA. （2）配置NameNode需要有Zookeeper. 在hdfs - 操作 -选择启用HA 填写nameservice名称，自定义即可：选择另外一台服务器安装namenode ，三个或5个节点安装journalnode。配置namenode,journalnode数据目录,如/data1/dfs/nn，/data1/dfs/jn 继续等待命令执行完成，按照向导操作即可启用HA成功配置yarn HA高可用使用管理员用户登录Cloudera Manager的Web管理界面，进入YARN服务点击“启用High Avaiability”，选择ResourceManager主机点击“继续”，启用ResourceManager HA 点击“完成”，查看YARN服务实例可以看到YARN的ResourceManager实例为两个，一个是活动状态，一个是备用状态，至此已完成YARN HA的启用，那么接下来就测试下YARN HA功能的可用性。 Yarn HA功能可用性测试 ResourceManager服务状态

Hive外部表 | 每日五分钟学大数据

阅读更多关于 Hive外部表 | 每日五分钟学大数据

别的先不说，开门见山说说内部表的特点： Hive 创建内部表时，会将数据移动到数据仓库指向的路径； Hive 创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变；在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。传统数据库对表数据验证是schema on write（写时模式），而 Hive 在load时是不检查数据是否符合schema的，hive 遵循的是schema on read（读时模式），只有在读的时候hive才检查、解析具体的数据字段、schema；所以在这样的设计下，Hive支持创建外部表也变得理所应当，我们来看下如何创建一个外部表。 CREATE EXTERNAL TABLE table_name( id STRING , name STRING ) ROW FORMAT DELIMITED LOCATION '/data/my_data.txt' ; 关键字EXTENAL告诉Hive这个表是外部的，而后面的LOCATION...子句则用于告诉Hive数据位于哪个路径下。然而，我们需要清楚的重要的一点是管理表和外部表之间的差异要比刚开始所看到的小得多。即使对于管理表，用户也是可以知道数据是位于哪个路径下的，因此用户也是可以使用其他工具

Hive入门学习笔记

阅读更多关于 Hive入门学习笔记

现在公司都会提供带有编辑框的Web界面，在编辑框中编写Hive脚本后直接点运行；hive的脚本里面可以写什么？最多的是SELECT 查询语句，但是文本框绝对不止这些。它支持DDL,DML,DCL等SQL操作，而SELECT只是DML中的一种。参考资料： SQL四种语言：DDL,DML,DCL,TCL 来源： oschina 链接： https://my.oschina.net/u/4280983/blog/4436032

大数据就业前景如何？现在学习大数据已经晚了吗？

阅读更多关于大数据就业前景如何？现在学习大数据已经晚了吗？

　大数据就业前景如何？现在学习大数据已经晚了吗？作为初入社会的大学生，或者想改变环境转行的同学，看到大数据技术开发者的高薪资都想进入这个行业，但是现在大数据技术依然想之前那样火爆吗？是不是学习了大数据技术就可以获得高薪呢？　　大数据从最开始的概念兴起，到现在各大互联网公司逐步推广使用。已经逐渐成熟，目前营销、电商、教育领域等等对大数据的应用已经初见效果。大数据也从最开始的概念过渡到实际应用领域。对技术人员的招聘也更加趋于理性。所以并非大数据技术不再火爆，而是企业对于大数据从业人员的要求提高了。　　根据招聘网站显示，目前大数据工作招聘需求，薪资普遍稳定在15-30K之间。其中目前刚入行的大数据工程师平均薪资在1万左右，而随着工作时间的增加，3~5年经验的大数据工程师的薪资待遇将达到3万元左右。　　据相关机构统计，未来的3~5内大数据人才的缺口将达到150万，而且随着大数据的发展，人才缺口将不断扩大，所以大数据不管是目前还是未来长期都将是紧缺人才，受到各大互联网企业的关注。　　如果你想投入大数据的怀抱，但却苦于不知如何下手。而当你准备学习大数据技术时，你可以了解一下博斌去计算大数据课程，主要是针对有一定编程开发经验的学员研发的课程。从大数据基础增强开始，内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容

5 优化

阅读更多关于 5 优化

Hive优化主要内容提问方式：不会直接问你优化方式有哪些？而是问你在项目中遇到过什么问题？怎么解决的？（1）Fetch 抓取（2）本地模式当输入的数据量十分小时，考虑采用本地模式进行优化；开启本地模式不一定数据就一定就走本地，还需要保证：1 输入的数据量要小于128M；2 输入的文件个数要小于4；（3）表的优化 ① 小表、大表 Join ② 大表 Join 大表 1 空 KEY 过滤 2 空 key 转换（解决了数据倾斜的问题） ③ MapJoin MapJoin工作原理： ④ Group By ⑤ Count(Distinct) 去重统计 ⑥ 行列过滤行处理就是在表关联前，先用过滤条件筛选数据。 ⑦ 采用分区、分桶技术（4）MR优化 ① 合理设置 Map 数 ② 小文件进行合并 ③ 复杂文件增加 Map 数 ④ 设置合理的Reduce 数来源： oschina 链接： https://my.oschina.net/u/4419899/blog/4526208

订阅 Hive