Hive | 易学教程

Hive How to select all but one column?

阅读更多关于 Hive How to select all but one column?

问题 Suppose my table looks something like: Col1 Col2 Col3.....Col20 Col21 Now I want to select all but Col21. I want to change it to unix_timestamp() before I insert into some other table. So the trivial approach is to do something like: INSERT INTO newtable partition(Col21) SELECT Col1, Col2, Col3.....Col20, unix_timestamp() AS Col21 FROM oldTable Is there a way I can achieve this in hive? Thanks a lot for your help! 回答1: Try to setup the below property set hive.support.quoted.identifiers=none;

近期在招职位一栏，前端后端大数据方向都要

阅读更多关于近期在招职位一栏，前端后端大数据方向都要

这篇就简单粗暴直接放 JD 啦，想了解更多公司业务和文化的看这一篇工程师们，这个智能金融头部创业团队推荐给你 Vue/React前端工程师JD 【岗位职责】独立完成下发任务；根据客户要求优化体验，提高产品友好交互性；与后台团队一起研讨技术实现方案，进行应用及系统整合。【岗位要求】精通Web前端基础，HTML5、CSS、Javascript；对前端的工程化、组件化、模块化有自己的理解；深刻理解W3C标准及可用性，能准确进行代码构建，实现产品所需交互效果，并封装通用JS组件；能够快速准确定位和解决web前端（JS,CSS）出现的bug，遇到问题不被卡住，有需求有困惑做到主动沟通效率高，代码规范，有很好的复用性； Vue/React技术栈，了解其基本原理【具有以下技能优先考虑】拥有好奇心，不局限于前端，技术面广热爱输出分享，有持续的做笔记/维护账号/个人网站的习惯 Java后端工程师JD 【岗位职责】参与需求规格说明书编写，进行模块设计；能够按照设计文档，遵循代码编写规范、编码安全规范，独立完成代码编写；能够对负责的模块独立地进行自测试及联调测试，并能搭建联调环境；能够快速、准确定位产品缺陷，并妥善解决，对缺陷进行原因分析。合作开发、积极向上的工作态度。【岗位要求】具有1年以上B/S体系结构或者微服务架构软件产品开发的工作经验

Hive源码分析（2）-- MetaStore Clint访问流程

阅读更多关于 Hive源码分析（2）-- MetaStore Clint访问流程

来源： oschina 链接： https://my.oschina.net/looten/blog/4306775

存储成本降低80%，有赞数据中台成本治理怎么做的？

阅读更多关于存储成本降低80%，有赞数据中台成本治理怎么做的？

导语 | 随着直播电商行业的兴盛，有赞业务高速发展。但同时数据仓库中存储资源和计算资源消耗也非常高，甚至一度超过了整个平台业务的增速，显然不是一个可持续发展的态势。本文是对有赞技术副总裁，腾讯云最具价值专家TVP——沈淦老师在云+社区沙龙online的分享整理，为大家介绍有赞在数据中台成本治理上的实践，与大家一同交流。点击查看完整直播回放一、背景介绍 1. 数据中台机器资源情况从整体的资源角度看，有赞数据中台机器数量在 1500 台左右，其中大部分是物理机，也有一部分是虚拟机，同时有 100 个左右的应用、4 万个核，数据规模在 15 PB 左右。从规模上来看属于不大不小的一个数据集群。从业务的特征上看，离线计算、实时计算、平台应用、在线服务等都依赖于这些资源。其中离线机器的成本占了将近 50% ，其他的部分相对来讲占的是小头。 2. 数据成本增速超业务在我们上半年的治理中，主要是针对离线计算场景，实时计算的部分目前在规划启动中。根据目前的业务情况来看，数据中台资源上投入成本的增速比我们整个业务发展的增速还要快，这就导致了它的不可持续性，这也是我们进行成本治理的一个主要原因。 3. 问题剖析分析下来，在成本方面我们主要面临的问题有以下这几个方面。（1）资源水位低一是整体的资源水位比较低，平均CPU使用率为 11% ，内存为 30% 左右。具体到场景中，离线的平均

万级TPS亿级流水-中台账户系统架构设计

阅读更多关于万级TPS亿级流水-中台账户系统架构设计

万级TPS亿级流水-中台账户系统架构设计标签：高并发万级TPS 亿级流水账户系统背景业务模型应用层设计数据层设计日切对账背景我们需要给所有前台业务提供统一的账户系统，用来支撑所有前台产品线的用户资产管理，统一提供支持大并发万级TPS、亿级流水、数据强一致、风控安全、日切对账、财务核算、审计等能力，在万级TPS下保证绝对的数据准确性和数据溯源能力。注：资金类系统只有合格和不合格，哪怕数据出现只有0.01分的差错也是不合格的，局部数据不准也就意味着全局数据都不可信。本文只分享系统的核心模型部分的设计，其他常规类的（如压测验收、系统保护策略-限流、降级、熔断等）设计就不做多介绍，如果对其他方面有兴趣欢迎进一步交流。业务模型基本账户管理：根据交易的不同主体，可以分为个人账户、机构账户。账户余额在使用上没有任何限制，很纯粹的账户存储、转账管理，可以满足90%业务场景。子账户功能：一个用户可以开通多个子账户，根据余额属性不同可以分为基本账户、过期账户，根据币种不同可以分为人民币账户、虚拟币账户，根据业务形态不同可以自定义。（不同账户的特定功能是通过账户上的账户属性来区分实现。）过期账户管理：该账户中的余额是会随着进账流水到期自动过期。如：在某平台充值1000元送300元，其中300元是有过期时间的，但是1000元是没有时间限制的

为什么我说 ETL 是 SQL 人重启辉煌之光的必经之路

阅读更多关于为什么我说 ETL 是 SQL 人重启辉煌之光的必经之路

点击蓝色“ 有关SQL ”关注我哟加个“ 星标 ”，天天与10000人一起快乐成长很多朋友会觉得写 CRUD 很无聊，翻来覆去就那么点花样。接触不到新鲜的技术，感觉自己要被这个时代淘汰了。于是怨天尤人，连基本的 SQL 都写不好了。这可能是眼界与见识的问题。SQL 在行业内还是相当重要的，当然你说 CRUD 那点东西玩几个月就会了，没有新奇感。从技术角度来看，是这样，我承认。但换成业务角度来说，这又不是一回事了。这要细讲，我可以讲上三天三夜，所以留到以后的文章再说。在 OLTP 系统中，CRUD 能做的事情，越来越少了。大部分都由前端框架封装好了。搞c#的同学有 Entity Framework, Java 系的同学有 Spring 全家桶。这些框架可以说，基本把 CRUD 同学的职位给抢掉了 2/3, 剩下纯搞 CRUD 的同学就偷着乐吧，也没几天了，想吃啥想喝啥，别委屈了自己。真正能让 SQL 人凭手艺，还在 CRUD 行当里吃香的，喝辣的，技术上取决于你掌握了多少种数据库，SQL写得多快，要不然就是要享受福报了。好在上帝关闭一扇窗的同时，他又打开了一道门。这道门便是数据仓库。数据和银行的存款是一样的，越积越多，多得我们得千方百计思考该怎么用它。我们刚开始入行的时候，接触的数据库应用，十有八九都是业务系统，比如订单系统，生产系统和人事系统。这是早就很多

项目介绍

阅读更多关于项目介绍

项目介绍项目整体介绍 1.项目模型搭建此项目为数据仓库项目,主要是做离线计算的项目模型:项目分为流量域和业务域两个主题域,为了方便管理这么多数据,又将每个主题域划分为五个层级,分别是ODS层,DWD层,DWS层,ADS层及DIM层,分层的原因为解耦,复用,便于管理,下面我分别介绍一下项目中他们的应用场景 1.1 ODS层 ODS层:源数据层,分为流量域ODS层及业务域ODS层流量域ODS层:数据来源于日志服务器(用户行为日志数据(APP端和WEB端)),日志服务器将数据生产到Kafka,然后使用Flume日志采集工具消费Kafka中的数据并将数据采集到Hdfs集群,在Hive中将数据加载到ODS层的Hive表中,这样就完成了原始数据的采集业务域ODS层:数据来源于业务系统中的关系型数据库mysql,采用sqoop抽取工具将数据从mysql导入到Hdfs中,再在Hive中将数据加载到ODS层相应的表中 1.2 DWD层 DWD层:数据明细层,同样分为流量域DWD层及业务域DWD层流量域DWD层:将数据在ODS层进行ETL操作(先对ODS层数据进行清洗,过滤(过滤掉缺失重要字段信息,重要字段信息为空或者json格式不正确的数据),降维等操作),再抽取到DWD层业务域DWD层:抽取ODS层每天的增量数据,与DWD层每天的全量数据进行合并

hive-3.1.2 整合进 hadoop-3.3.0 + hbase-2.2.4

阅读更多关于 hive-3.1.2 整合进 hadoop-3.3.0 + hbase-2.2.4

一、下载匹配hadoop-3.x.y 版本的hive 3.1.2 下载地址： http://mirror.bit.edu.cn/apache/hive/ 二、上传至安装目录 /home/apache-hive-3.1.2-bin.tar.gz 解压：tar -zxvf apache-hive-3.1.2-bin.tar.gz 后重命名目录：/home/hive-3.1.2 三、编辑 /etc/profile 文件 ...... if [ -n "${BASH_VERSION-}" ] ; then if [ -f /etc/bashrc ] ; then # Bash login shells run only /etc/profile # Bash non-login shells run only /etc/bashrc # Check for double sourcing is done in /etc/bashrc. . /etc/bashrc fi fi export JAVA_HOME =/usr/java/jdk1.8.0_131 export JRE_HOME = ${JAVA_HOME}/jre export HADOOP_HOME =/home/hadoop-3.3.0 export HIVE_HOME=/home/hive-3.1.2 export

Spark：shuffle原理

阅读更多关于 Spark：shuffle原理

shuffle 和 stage shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤. 　　RDD 的 Transformation 函数中,又分为窄依赖(narrow dependency)和宽依赖(wide dependency)的操作.窄依赖跟宽依赖的区别是是否发生 shuffle(洗牌) 操作.宽依赖会发生 shuffle 操作. 窄依赖是子 RDD的各个分片(partition)不依赖于其他分片,能够独立计算得到结果,宽依赖指子 RDD 的各个分片会依赖于父RDD 的多个分片,所以会造成父 RDD 的各个分片在集群中重新分片, 看如下两个示例: 　　第一个 Map 操作将 RDD 里的各个元素进行映射, RDD 的各个数据元素之间不存在依赖,可以在集群的各个内存中独立计算,也就是并行化,第二个 groupby 之后的 Map 操作,为了计算相同 key 下的元素个数,需要把相同 key 的元素聚集到同一个 partition 下,所以造成了数据在内存中的重新分布,即 shuffle 操作.shuffle 操作是 spark 中最耗时的操作,应尽量避免不必要的 shuffle. 　　宽依赖主要有两个过程: shuffle write 和 shuffle fetch. 类似 Hadoop 的 Map 和 Reduce 阶段

沃尔玛的产品知识图谱

阅读更多关于沃尔玛的产品知识图谱

作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴（销售商、供应商、品牌）提供的数据往往不完整，有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范（一种发送产品数据的约定格式），但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外，互联网上还有许多非结构化数据，如产品手册、产品评论、博客、社交媒体网站等。沃尔玛正致力于构建一个零售图谱(Retail Graph)，捕捉有关产品及其相关实体的知识，以帮助我们的客户更好地发现产品。它是一个产品知识图谱，可以在零售环境中回答有关产品和相关知识的问题，可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。沃尔玛的零售图谱是什么零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象，例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种：抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题，而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别，替代品和补充品（附件、兼容产品等）。它还试图将抽象概念

订阅 Hive