Hive

hive如何实现行列转换

匆匆过客 提交于 2020-10-01 14:34:22
1. 行转列 原始数据: name constellation blood_type 孙悟空 白羊座 A 大海 射手座 A 宋宋 白羊座 B 猪八戒 白羊座 A 凤姐 射手座 A 现在需要把星座和血型一样的人归类到一起。结果如下: 射手座,A 大海 | 凤姐 白羊座,A 孙悟空 | 猪八戒 白羊座,B 宋宋 # vim person.txt 孙悟空 , 白羊座 , A 大海 , 射手座 , A 宋宋 , 白羊座 , B 猪八戒 , 白羊座 , A 凤姐 , 射手座 , A # 创建hive表 hive > create table person_info ( name string , constellation string , blood_type string ) row format delimited fields terminated by "," ; # 加载数据 hive > load data local inpath "/root/person.txt" into table person_info ; # 转换sql hive > select t . base , concat_ws ( '|' , collect_set ( t . name ) ) from ( select name , concat ( constellation , "," ,

【AWS征文】[大数据][Hadoop] 使用EMR做大数据分析

给你一囗甜甜゛ 提交于 2020-09-30 07:32:43
实验包括: 1. 使用EMR创建Hadoop集群 2. 定义schema,创建示例表。 3. 通过HiveQL分析数据,并将分析结果保存到S3上 4. 下载已经分析结果数据。 Task1:创建一个S3 桶 创建一个存储桶比如hadoop202006… Task2:创建EMR集群 这里我解释一下Hadoop集群中的一些组件,了解大数据的同学直接忽略就好。 Apache Hadoop:在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。 Ganglia:分布式监控系统 Apache Tez:支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。比如Hive或Pig可以将Tez作为执行引擎。 Hive:可以通过类似SQL语句实现快速MapReduce统计 Hue:通过使用Hue我们可以通过浏览器方式操纵Hadoop集群。例如put、get、执行MapReduce Job等等。 Pig:它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 解释一下,Master、Core、Task。 Master Node:主节点集群管理

Hive性能调优实战

守給你的承諾、 提交于 2020-09-30 04:42:48
https://search.jd.com/Search?keyword=hive%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98%E5%AE%9E%E6%88%98&enc=utf-8&suggest=2.def.0.V10--38s0&wq=Hive&pvid=7a052c1448af4cd5bfe7fe9730bbb110 来源: oschina 链接: https://my.oschina.net/osenlin/blog/4518833

基于Canal与Flink实现数据实时增量同步(二)

牧云@^-^@ 提交于 2020-09-30 01:04:00
背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中?一般常用的解决方案是批量取数并Load:直连MySQL去Select表中的数据,然后存到本地文件作为中间存储,最后把文件Load到Hive表中。这种方案的优点是实现简单,但是随着业务的发展,缺点也逐渐暴露出来: 性能瓶颈:随着业务规模的增长,Select From MySQL -> Save to Localfile -> Load to Hive这种数据流花费的时间越来越长,无法满足下游数仓生产的时间要求。 直接从MySQL中Select大量数据,对MySQL的影响非常大,容易造成慢查询,影响业务线上的正常服务。 由于Hive本身的语法不支持更新、删除等SQL原语(高版本Hive支持,但是需要分桶+ORC存储格式),对于MySQL中发生Update/Delete的数据无法很好地进行支持。 为了彻底解决这些问题,我们逐步转向CDC (Change Data Capture) + Merge的技术方案

蘑菇街首页推荐视频流——增量学习与wide&deepFM实践(工程+算法)

随声附和 提交于 2020-09-24 06:03:10
欢迎关注我的公众号: 『诗品算法』 禁止一切未经本人 @ 琦琦许可的转载 一、楔子 害,写个这么严肃的技术话题还需要楔子么?这不是让大家放松一下嘛!毕竟是我的处女作,还是要来个看似一本正经的开场白和自我介绍的。 大家好,我是混迹于奋斗X之都——杭州的互联网大龄脱发女程序员一枚,大家可以关注我的公众号: “诗品算法” 。我会尽量保持每个月甚至每周更新一次的频率,在此立证(更新慢你也不能打我,只能用唾沫星子淹死我了哈哈)。 下面进入正题,带你领略蘑菇街有(坎)趣(坷)的从0到1的增量学习历程。 二、背景 在online deep learning炒得尤其火热的今天,我们知道,实时性就是互联网的生命和活力所在。笔者前几天跟一个阿里的朋友吃饭,朋友说,ODL现在是他们组最容易出成果的方向,众人愕然,ODL?哪篇论文里的?随即一拍大腿,原来是deep online learning。。。 试想,如果你刷抖音时,平台捕获到了你最近偏好旅行的即时兴趣,随即在很短时间内给你推荐了旅行相关的内容,你是不是会持续嗑药般地滑动下去?从而产生了心理学中所谓的无限“心流”,但我并不推崇这种类似沉迷游戏般的"心流",这种带有引号的“心流”仅仅是感官的愉悦,与精神的满足与自我的成就感无关,与至高的纯粹的甘美的快乐无关,与灵魂真正的安宁与幸福更是无关,因这并不会让你获得实质性的进步。扯远了