Hive | 易学教程

软件测试该学些什么技能？职业选择方向又有哪些

阅读更多关于软件测试该学些什么技能？职业选择方向又有哪些

测试，是动词、名词。测试行为，一般发生于为检测特定的目标是否符合标准而采用专用的工具或者方法进行验证，并最终得出特定的结果。多么生动的描述啊！如果说开发的任务是建造一座房子，那么测试的任务就是对房子的材料，设计图纸（文档），外观，抗震性，舒适性等等进行综合验证，并得出一份“质检报告”。测试职位具体划分功能测试工程师功能测试重心就是测试用例的设计。而测试用例的设计，取决于测试人员对产品需求的理解；对产品需求的理解取决于测试人员对业务的“接受”程度。这也是功能测试发展往往会遇到“瓶颈”的原因，过多的项目只不过是在反复地学习不同的业务；因此功能测试工程师往往要具备一定的测试管理能力，掌握一定的测试策略，发展通道一般是管理方向。性能测试工程师产品，实际上是指产品的功能和质量两个方面。功能是构成竞争力的首要要素。用户购买某个产品，首先是购买它的功能，也就是实现其所需要的某种行为的能力。质量是指产品能实现其功能的程度和在使用期内功能的保持性，质量可以定义为“实现功能的程度和持久性的度量”。性能测试往往要求测试工程师不但具备对产品基本的功能以及业务知识，还要对产品所“在”（部署）的环境有必须的了解。这就要求性能测试工程师必须掌握一定的系统知识，如服务器硬件知识（CPU、MEM、NETWORK、IO），数据库（ORACLE，MYSQL），中间件（TOMCAT，NGINX）

hive 时间戳函数之unix_timestamp，from_unixtime

阅读更多关于 hive 时间戳函数之unix_timestamp，from_unixtime

一. 日期>>>>时间戳 1.unix_timestamp() 获取当前时间戳例如：select unix_timestamp() --1565858389 2.unix_timestamp(string timestame) 输入的时间戳格式必须为'yyyy-MM-dd HH:mm:ss',如不符合则返回null 例如： select unix_timestamp('2019-08-15 16:40:00') --1565858400 select unix_timestamp('2019-08-15') --null 3.unix_timestamp(string date,string pattern) 将指定时间字符串格式字符串转化成unix时间戳,如不符合则返回null 例如： select unix_timestamp('2019-08-15','yyyy-MM-dd') --1565798400 select unix_timestamp('2019-08-15 16:40:00','yyyy-MM-dd HH:mm:ss') --1565858400 select unix_timestamp('2019-08-15','yyyy-MM-dd HH:mm:ss') --null 二. 时间戳>>>>日期 1.from_unixtime(bigint

CentOS7安装CDH 第五章：CDH的安装和部署-CDH5.7.0

阅读更多关于 CentOS7安装CDH 第五章：CDH的安装和部署-CDH5.7.0

相关文章链接 CentOS7安装CDH 第一章：CentOS7系统安装 CentOS7安装CDH 第二章：CentOS7各个软件安装和启动 CentOS7安装CDH 第三章：CDH中的问题和解决方法 CentOS7安装CDH 第四章：CDH的版本选择和安装方式 CentOS7安装CDH 第五章：CDH的安装和部署-CDH5.7.0 CentOS7安装CDH 第六章：CDH的管理-CDH5.12 CentOS7安装CDH 第七章：CDH集群Hadoop的HA配置 CentOS7安装CDH 第八章：CDH中对服务和机器的添加与删除操作 CentOS7安装CDH 第九章：CDH中安装Kafka CentOS7安装CDH 第十章：CDH中安装Spark2 CentOS7安装CDH 第十一章：离线升级CDH版本 CentOS7安装CDH 第十二章：YARN的资源调优 CentOS7安装CDH 第十三章：CDH资源池配置 CentOS7安装CDH 第十四章：CDH的优化 1. CDH的下载以 CentOS7.5 和 CDH5.7.0 举例： 1.1. cm的tar包下载下载地址： http://archive.cloudera.com/cm5/repo-as-tarball/5.7.0/ 请选择需要的版本。 1.2. parcels包下载下载地址： http://archive

大数据

阅读更多关于大数据

MapReduce 主要内容 ① MapReduce概述 1.1 MapReduce定义 1.2 优缺点优点：缺点： 1.3 MR核心编程思想 MR进程： ② MR框架原理 2.1 MapReduce工作流程 Map Task工作机制：具体过程： Read阶段：从文本中一行一行的读取数据，并返回一个个的k,v数据，并将数据交给map函数处理； Map阶段：用map函数处理读取到的k,v数据，并得到新的k,v数据； Collect收集阶段：将map函数处理的结果存储到环形内存缓存区中； Spill溢写阶段：当环形缓存区达到阈值时，就会将数据溢写到磁盘上。溢写前要对数据进行排序、合并等操作；（溢写阶段详情见文档） Combine合并阶段：当所有数据处理完以后，对磁盘上的所有数据进行一次归并排序，合并成一个文件；（详情见文档） Reduce Task工作机制：具体流程： Copy阶段：当Map Task任务结束以后，Reduce Task从各个Map Task上去拷贝数据，放到内存或者磁盘中； Merge阶段：对内存和磁盘上拷贝过来的数据进行合并，防止内存和磁盘被占用过多； Sort 阶段：和Merge阶段一起工作，在合并的同时使用归并排序进行排序； Reduce 阶段： reduce() 函数将计算结果写到 HDFS 上。 MR整体流程图： 2.2

实时标签开发——从零开始搭建实时用户画像(五)

阅读更多关于实时标签开发——从零开始搭建实时用户画像(五)

数据接入数据的接入可以通过将数据实时写入Kafka进行接入，不管是直接的写入还是通过oracle和mysql的实时接入方式，比如oracle的ogg，mysql的binlog ogg Golden Gate（简称OGG）提供异构环境下交易数据的实时捕捉、变换、投递。通过OGG可以实时的将oracle中的数据写入Kafka中。对生产系统影响小：实时读取交易日志，以低资源占用实现大交易量数据实时复制以交易为单位复制，保证交易一致性：只同步已提交的数据高性能智能的交易重组和操作合并使用数据库本地接口访问并行处理体系 binlog MySQL 的二进制日志 binlog 可以说是 MySQL 最重要的日志，它记录了所有的 DDL 和 DML 语句（除了数据查询语句select、show等），以事件形式记录，还包含语句所执行的消耗的时间，MySQL的二进制日志是事务安全型的。binlog 的主要目的是复制和恢复。通过这些手段，可以将数据同步到kafka也就是我们的实时系统中来。 Flink接入Kafka数据 Apache Kafka Connector可以方便对kafka数据的接入。依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.11

HDFS+ClickHouse+Spark：从0到1实现一款轻量级大数据分析系统

阅读更多关于 HDFS+ClickHouse+Spark：从0到1实现一款轻量级大数据分析系统

在产品精细化运营时代，经常会遇到产品增长问题：比如指标涨跌原因分析、版本迭代效果分析、运营活动效果分析等。这一类分析问题高频且具有较高时效性要求，然而在人力资源紧张情况，传统的数据分析模式难以满足。本文尝试从0到1实现一款轻量级大数据分析系统——MVP，以解决上述痛点问题。文章作者：数据熊，腾讯云大数据分析工程师。一、背景及问题在产品矩阵业务中，通过仪表盘可以快速发现增长中遇到的问题。然而，如何快速洞悉问题背后的原因，是一个高频且复杂的数据分析诉求。如果数据分析师通过人工计算分析，往往会占用0.5-1天时间才能找到原因。因此，人工计算分析方式，占用人力大，且数据分析效率低。另外，产品版本迭代与业务运营活动，也需要对新版本、新功能、新活动进行快速数据分析，已验证效果。因此，在产品矩阵业务精细化运营中，存在大量的数据分析诉求，且需要快速完成。在传统的数据分析模式下，对于每个需求，一般需要经历3-5天才能解决问题。除此之外，该模式还需要大量数据分析师对接需求。因此，在数据分析师人力紧缺情况下，该模式无法满足产品增长的数据分析诉求。二、解决办法在传统数据分析模式失效情况下，急需开拓新的数据分析模式，以快速满足产品增长的数据分析诉求。为此，笔者和项目小团队从0到1实现一款轻量级大数据分析系统——MVP，希望通过MVP数据分析，驱动产品从"Minimum Viable

In Hive, which query is better and why?

阅读更多关于 In Hive, which query is better and why?

问题 Assume there are two queries: select count(distinct a) from x; select count(*) from (select distinct a from x) y; I know they return the same results, but from the perspective of Hive (using MapReduce ). Can anyone please explain which one is the better choice and why? Any help is appreciated. 回答1: In Hive versions prior 1.2.0 the first query executes using one Map and one Reduce stages. Map sends each value to the single reducer, and reducer does all the job. Single reducer processing too

Drop Hive Table & msck repair fails with Table stored in google cloud bucket

阅读更多关于 Drop Hive Table & msck repair fails with Table stored in google cloud bucket

问题 I am creating hive table in Google Cloud Bucket using below SQL statement. CREATE TABLE schema_name.table_name (column1 decimal(10,0), column2 int, column3 date) PARTITIONED BY(column7 date) STORED AS ORC LOCATION 'gs://crazybucketstring/' TBLPROPERTIES('ORC.COMPRESS'='SNAPPY'); Then I loaded data into this table using distcp command, Now when I try to Drop table it fails with below error message, Even if I try to drop empty table it fails. hive>>DROP TABLE schema_name.table_name; **Error:**

Drop Hive Table & msck repair fails with Table stored in google cloud bucket

阅读更多关于 Drop Hive Table & msck repair fails with Table stored in google cloud bucket

Apache Kylin v3.1.0 重点功能推介

阅读更多关于 Apache Kylin v3.1.0 重点功能推介

Apache Kylin v3.1.0 已于上周正式发布，其中包含了许多值得一试的新功能，本文选择了 Presto 查询下压引擎、Flink 构建引擎、Kylin on Kubernetes 解决方案、新版 Hive 全局字典、增强的 Cube 迁移服务这五项重点功能进行介绍。 Presto 查询下压引擎之前版本的 Kylin 提供了查询下压功能，该功能对于 Hive 数据源的下压有比较好的支持，但是对 Hive 以外的具有不兼容语法的数据源，用户就容易遇到因为种种方言不兼容而导致查询下压失败的问题。为了解决这个问题，Kyligence 贡献了基于 Data Source SDK 开发的 Presto 查询下压引擎，该功能通过 Calicte 完成了Kylin 和 Presto 方言翻译，大大提升了查询下压的成功率。 Presto 下压引擎的使用文档请参考 : http://kylin.apache.org/docs/tutorial/query_pushdown.html 崭新的 Flink 构建引擎 Flink Engine 由腾讯贡献到 Kylin 社区（KYLIN – 3758）。在过去版本中，Kylin 只支持 MapReduce 和 Spark 两种构建引擎，为了扩大 Kylin 生态，进一步提升构建速度，Kylin v3.1.0引入了 Flink 作为构建引擎

订阅 Hive