【HQL】函数汇总
背景 SQL几乎是初级分析师80%的工作内容,当然在我的规划里,中级分析师已经要做好维度建模工作以及最好有OLAP系统工具啥的,或者已经能主动分析写文章了,尽量减少SQL的无效使用。这是我自己的定位,其他人无所谓。 anyway,SQL对分析师来说是一项很棒的工具,HQL即Hive SQL,相对MySQL 函数更多更复杂一些。 另外,在查询能使用哪个函数时,通常有三种情况: 一是记得某个函数名,但忘了参数怎么用,索引是函数名; 二是想要实现某个目的,不太清楚有什么函数能实现,索引是函数的作用; 三是想实现某个较为复杂的目的,不太清楚组合哪些函数能实现,这里通常涉及多个函数,索引是使用案例。 所以在后续文章中,前三列会体现这个问题。 数仓同步表 与MySQL这种事务性数据库不同的是,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。前三个性质且不说,最后一个反映历史变化的是如何体现的呢?这在于同步线上事务表的方式。 线上表同步下来有三种方式,增量表、全量表、拉链表。 另外提一下,数仓都是在凌晨两三点T+1同步;除了字段外,数仓还有个分区的概念,用于快速取某一块的数据,通常日期dt会作为分区,其他例如业务类型啥的也可以作为分区