Hive | 易学教程

以某课网日志分析为例进入大数据 Spark SQL 的世界

阅读更多关于以某课网日志分析为例进入大数据 Spark SQL 的世界

第1章初探大数据本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识第2章 Spark及其生态圈概述 Spark作为近几年最火爆的大数据处理技术，是成为大数据工程师必备的技能之一。本章将从如下几个方面对Spark进行一个宏观上的介绍：Spark产生背景、特点、发展史、Databricks官方调查结果、Spark与Hadoop的对比、Spark开发语言及运行模式介绍 ... 如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。第3章实战环境搭建工欲善其事必先利其器，本章讲述Spark源码编译、Spark Local模式运行、Spark Standalone模式运行第4章 Spark SQL概述 Spark SQL面世已来，它不仅接过了Shark的接力棒，继续为Spark用户提供高性能SQL on Hadoop解决方案，还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、愿景、架构，这几个角度进行展开讲解... 第5章从Hive平滑过渡到Spark SQL

一步即可，阿里云数据湖分析服务构建MySQL低成本分析方案

阅读更多关于一步即可，阿里云数据湖分析服务构建MySQL低成本分析方案

数据湖分析(Data Lake Analytics，简称DLA) 是Serverless化的交互式联邦查询服务。使用标准SQL即可分析与集成对象存储(OSS)、数据库(PostgreSQL/MySQL等)、NoSQL(TableStore等)数据源的数据。 https://cn.aliyun.com/product/datalakeanalytics?aly_as=bX_ZThXyu 用户福利欢迎新用户1元抢购原价280元的DLA 10TB包： https://common-buy.aliyun.com/?commodityCode=openanalytics_post 方案背景需求场景一 MySQL数据库大量应用在各种业务系统，除了在线业务逻辑的读写，还会有一些额外的数据分析需求，如BI报表、可视化大屏、大数据应用等。随着业务的发展，单机MySQL数据库达到一定的数据量后，直接使用MySQL做数据分析性能比较差，而且会影响在线业务的读写性能。这种情况下就需要寻求新的数据分析方案。需求场景二 MySQL中的数据需要和日志数据做联合分析，这种场景下有些公司会使用开源的大数据系统（如Hive，Hadoop，Spark等）搭建数据仓库，这个方法虽然能解决问题，但它所需的人力成本和服务器等资源成本却是最高的。如何才能低成本的把MySQL与其他系统的数据做联合分析？需求场景三

写入Apache Hudi数据集

阅读更多关于写入Apache Hudi数据集

这一节我们将介绍使用 DeltaStreamer 工具从外部源甚至其他Hudi数据集摄取新更改的方法，以及通过使用 Hudi数据源的upserts加快大型Spark作业的方法。对于此类数据集，我们可以使用各种查询引擎查询它们。写操作在此之前，了解Hudi数据源及delta streamer工具提供的三种不同的写操作以及如何最佳利用它们可能会有所帮助。这些操作可以在针对数据集发出的每个提交/增量提交中进行选择/更改。 UPSERT（插入更新）：这是默认操作，在该操作中，通过查找索引，首先将输入记录标记为插入或更新。在运行启发式方法以确定如何最好地将这些记录放到存储上，如优化文件大小之类后，这些记录最终会被写入。对于诸如数据库更改捕获之类的用例，建议该操作，因为输入几乎肯定包含更新。 INSERT（插入）：就使用启发式方法确定文件大小而言，此操作与插入更新（UPSERT）非常相似，但此操作完全跳过了索引查找步骤。因此，对于日志重复数据删除等用例（结合下面提到的过滤重复项的选项），它可以比插入更新快得多。插入也适用于这种用例，这种情况数据集可以允许重复项，但只需要Hudi的事务写/增量提取/存储管理功能。 BULK_INSERT（批插入）：插入更新和插入操作都将输入记录保存在内存中，以加快存储优化启发式计算的速度（以及其它未提及的方面）。

非科班生如何浑水摸鱼在省级大数据竞赛中获奖

阅读更多关于非科班生如何浑水摸鱼在省级大数据竞赛中获奖

以各种竞赛为线索的回忆录/经验贴，没写算法啥的，就是记比赛过程，本科除了看的那几本书，打的那十几场竞赛，寝室那几个人，几位恩师的脸，很多都记不清了。这次记录的比赛是：2017年安徽省大数据技术与应用大赛这个标题写的我都不好意思了…但是没错！就是浑水摸鱼！来来来,教您一起浑水摸鱼. 参加比赛的原因作为一个大三应用统计专业的学生，参加这个比赛实属巧合，我原本都不知道有这个比赛。大数据我是知道的，但就知道这三个字怎么写而已，什么分布式、hadoop、spark、Hive、Scala我之前他喵的听都没听说过。那你参加这个比赛玩个球？？？咳咳咳，这就要开始讲参加这个比赛的起因了。我假设大家都知道有一个比赛叫全国大学生数学建模竞赛，由于一些原因(在此不做详细论述)，我失利了，只拿了省二，连答辩的机会都没有，很不甘心，于是就想用其他比赛来弥补。此时！我有一个学计算机的朋友小峰，他告诉我马上有一个省级计算机类比赛和大数据有关，问我要不要来试试？我一听，好啊！数据！我喜欢！于是我就屁颠屁颠的找老师去报名了。孽缘由此开始！困难重重的参赛之旅推销自己其实我心里还是有点数的，计算机类比赛嘛，肯定要涉及到编程啊！正好，为了数学建模我学了点python、JAVA、R、mysql、HTML 别问我，为什么参加建模要学mysql和HTML，我也不知道，情之所至吧于是

基于Hadoop的58同城离线计算平台设计与实践

阅读更多关于基于Hadoop的58同城离线计算平台设计与实践

分享嘉宾：余意 58同城高级架构师编辑整理：史士博内容来源：58大数据系列直播出品平台：DataFun 注：欢迎转载，转载请在留言区留言。导读： 58离线计算平台基于 Hadoop 生态体系打造，单集群4000+台服务器，数百 PB 存储，日40万计算任务，面临挑战极大。58 大数据平台的定位主要是服务数据业务开发人员，提高数据开发效率，提供便捷的开发分析流程，有效支持数据仓库及数据应用建设。通常大数据平台通用基础能力包括：数据存储、实时计算、离线计算、数据查询分析，本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。本文主要内容包括： 58在集群快速增长的过程中遇到的问题以及解决之道； 58大数据集群跨机房迁移的相关工作，如何在5个月时间快速完成3000台集群服务的迁移工作。 ▌ 数据平台部简介数据平台部是负责58统一大数据基础平台能力建设。平台负责的工作主要包括以下几部分：数据接入：文本的收集，我们采用 flume 接入，然后用 kafka 做消息缓冲，我们基于 kafka client 打造了一个实时分发平台，可以很方便的把 kafka 的中间数据打到后端的各种存储系统上。离线计算：我们主要基于 Hadoop 生态的框架做了二次定制开发。包括 HDFS、YARN、MR、SPARK。实时计算：

基于Hadoop的58同城离线计算平台设计与实践

阅读更多关于基于Hadoop的58同城离线计算平台设计与实践

Spark 配置连接hive 元数据库(mysql)

阅读更多关于 Spark 配置连接hive 元数据库(mysql)

Spark 连接hive 元数据库(mysql) 方法一： 1)打开Hive metastore [root@head42 ~]# hive --service metastore & netstat -ano|grep 9083 ??? 2)开启spark连接Mysql [root@head42 ~]# spark-shell --conf spark.hadoop.hive.metastore.uris=thrift://localhost:9083 3）scala> spark.sql("show tables").show spark.sql("select * from database_name.table_name")//访问其他数据库 +--------+--------------+-----------+ |database| tableName|isTemporary| +--------+--------------+-----------+ | default| customer| false| | default|text_customers| false| +--------+--------------+-----------+ 这样就Ok了! 方法二： 1）拷贝hive的hive-site.xml文件到spark的conf目录下 2

《计算机网络自顶向下方法第7版》PDF习题解答+《图解TCP/IP第5版》PDF

阅读更多关于《计算机网络自顶向下方法第7版》PDF习题解答+《图解TCP/IP第5版》PDF

对于大多数CS人而言，计算机网络概念很多，TCP/IP必须掌握，推荐学习《计算机网络自顶向下方法》。真正在工作中接触的其实也就是IP及其以上各层；IP以下，主要还是归ECE的人管。虽然相关研究依然活跃，但现在的网络世界里层数不穷的，是新的服务和新的服务模式，将这样激动人心的部分放在前面，有助于勾引不明真相的群众投身网络事业。个人很赞TCP和安全这两部分，循序渐进的从一个很弱的模型构建一个比较完善的模型，于是读者很自然能理解协议为什么最终被设计成这个样子。而且第一次看这本书的时候还没看过Kauffman的Network Security，对Alice和Bob的这个情景设置觉得还蛮新鲜的。其次比较喜欢路由算法那部分，先讲基本算法，再说具体协议，很清楚。多媒体网络的部分也是很注重原理，而协议为辅。《计算机网络自顶向下方法》第6版PDF中文+第7版PDF英文+习题解答+第7版部分中文PDF 《计算机网络自顶向下方法第6版》中文PDF，565页，带目录，文字可复制。《计算机网络自顶向下方法第7版》英文PDF，856页，带目录，文字可复制。配套习题解答；配套第7版部分中文PDF。下载: https://pan.baidu.com/s/1cKKsIiOqcRmCf-xR5718MA 提取码: 4a53 《计算机网络自顶向下方法》采用自顶向下的方法讲解计算机网络的原理和协议

重启yarn导致僵死资源不可用问题

阅读更多关于重启yarn导致僵死资源不可用问题

今日在做节点可靠性测试的时候，错误重启了yarn整个服务，其hdfs等他组件正常，yarn过会自动僵死，导致整个平台资源调度问题，恢复步骤如下： 1.查看日志tail -f yarn-resourcemanger-192.168.1.233.log（不清楚你的日志在哪可以find / -name yarn） 2.登陆装有yarn的机器，查看rm1，rm2 的状态。我的rm1，rm2，都是standby，（rm是resourceManger，HA） $ yarn rmadmin - getServiceState rm1 standby $ yarn rmadmin - getServiceState rm2 standby （手动的切换准备命令了 yarn rmadmin - transitionToStandby rm1） 3.以上两个命令已经可以发现主rm没有起来，但重启后，依然会僵死。清空rm日志，重新启动rm后，分析日志会发现如下错误： Caused by: org.apache.hadoop.metrics2.MetricsException: Hadoop:service=ResourceManager,name=RMNMInfo already exists! Caused by: java.lang.IllegalArgumentException: No

阿里云ECS服务器部署HADOOP集群（三）：ZooKeeper 完全分布式集群搭建

阅读更多关于阿里云ECS服务器部署HADOOP集群（三）：ZooKeeper 完全分布式集群搭建

本篇将在阿里云ECS服务器部署HADOOP集群（一）：Hadoop完全分布式集群环境搭建的基础上搭建，多添加了一个 datanode 节点。 1 节点环境介绍： 1.1 环境介绍：服务器：三台阿里云ECS服务器：master, slave1, slave2 操作系统： CentOS 7.3 Hadoop： hadoop-2.7.3.tar.gz Java: jdk-8u77-linux-x64.tar.gz ZooKeeper: zookeeper-3.4.14.tar.gz 1.2 各节点角色分配 master: NameNode、SecondaryNameNode、QuorumPeerMain slave1: DataNode、QuorumPeerMain slave2: DataNode、QuorumPeerMain 2 ZooKeeper 下载下载 zookeeper-3.4.14.tar.gz 并在合适的位置解压缩，笔者这里解压缩的路径为: /usr/local/ 将解压得到的目录改名为 zookeeper 。 cd /usr/ local mv zookeeper- 3.4 . 14 zookeeper 3 添加 ZooKeeper 环境变量在"/etc/profile"中添加内容： 1 export ZOOKEEPER_HOME=/usr/local/

订阅 Hive