HDFS

hive-etl开发模板

本秂侑毒 提交于 2020-10-19 10:36:10
hive-etl开发模板 #!/bin/bash . /home/anjianbing/soft/functions/wait4FlagFile.sh # =========================================================================== # 程序名称: # 功能描述: 城市每日完成订单数 # 输入参数: 运行日期 # 目标表名: app.app_order_city_d # 数据源表: dw.dw_order # 创建人: 安坚兵 # 创建日期: 2015-12-21 # 版本说明: v1.0 # 代码审核: # 修改人名: # 修改日期: # 修改原因: # 修改列表: # =========================================================================== ### 1.参数加载 exe_hive="hive" if [ $# -eq 1 ] then day_01=`date --date="${1}" +%Y-%m-%d` else day_01=`date -d'-1 day' +%Y-%m-%d` fi syear=`date --date=$day_01 +%Y` smonth=`date --date=$day_01 +%m`

廖雪峰大数据团队研发的"开车宝典"再次曝光,手慢删!

心不动则不痛 提交于 2020-10-18 15:30:43
想什么呢!是廖雪峰老师送福利! 众所周知,大数据改变了我们的生产生活,目前已被广泛应用于电商、交通、工业、金融、政务、医疗等行业,而大数据工程师也成为各行业炙手可热的岗位 。 但同样地大数据工程师技能要求也不低,不仅要熟练 Hadoop、Presto 及 Spark、Storm 等核心框架,还要会搭建系统架构,解决实际业务问题等。但不少初入大数据的人往往摸不着头脑,对 Spark、Flume、Hbase、Kafka 等框架底层源码更是一知半解,更不要说提升系统性开发能力,成为精通的高手了。 因此,今天给大家推荐一个 免费 福利—— 廖雪峰 最新研磨的 实战宝典 《 如何将大数据开发做到优秀 》 首次开放! 内容出自开课吧 vip 课程 “大数据高级开发实战班” ,为帮助大家特殊时期职场走得更加顺畅,现决定将这套价值 788元 的体系化学习宝典免费送给粉丝朋友。 如果你是刚转行大数据不久的 Java、PHP 等程序员或 入行新人 ,这套学习宝典能帮你迅速摆脱工作困扰,巩固掌握优秀工程师的必会技能: 缺乏工作经验,想短时期内接触学习大数据开发项目; 接触不到核心技术,不懂底层源码,不会搭建系统架构,提升太难; 业务逻辑欠缺,想丰富实战经验,进大厂冲击高薪。 一、高薪大数据工程师必备——实战项目经验 本部分选取 当下各企业应用最广的 项目 ,基于 大厂脱敏数据 ,以 Spark

Hadoop2.7.3在centos7上的单机版安装部署

一个人想着一个人 提交于 2020-10-18 10:52:36
1、使用到的工具版本说明: centos版本:CentOS-7.4-x86_64-DVD-1708.iso JDK版本:jdk-8u231-linux-x64.tar.gz Hadoop版本:hadoop-2.7.3.tar.gz https://archive.apache.org/dist/hadoop/common/ ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201017131939971.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3l0YW5nZGlnbA==,size_16,color_FFFFFF,t_70#pic_center) 2、环境准备 2.1 安装centos 参考: 在VirtualBox中安装CentOS7详解(Mac版) 2.2 关闭防火墙 # 停止firewall systemctl stop firewalld.service # 禁止firewall开机启动 systemctl disable firewalld.service 2.3 配置SSH免密码登录 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

奈学教育《大数据开发工程师》课程大纲

时光毁灭记忆、已成空白 提交于 2020-10-16 05:09:09
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目,把大数据生态技术知识串连起来,让学员形成自己的技术栈,真正成为企业级的大数据开发工程师! 阶段一:小规模数据处理篇 第一单元 掌握Python基础语法 集合类型 条件,循环 文件操作 函数和函数式编程 面向对象 第二单元 掌握NumPy进行数据分析 NumPy基本使用 Numpy进阶知识 第三单元 掌握Pandas进行数据分析 Pandas基础知识 Series数据结构 DataFrame数据结构 综合案例演示 阶段二:中等规模数据处理篇 第四单元 掌握Elastichsearch核心设计 Elastichsearch总体架构设计 Elastichsearch核心流程分析 Elastichsearch核心概念详解 第五单元 掌握Elastichsearch API使用与调优 Elastichsearch语法详解 Elastichsearch容错原理剖析

大数据简介,技术体系分类整理

独自空忆成欢 提交于 2020-10-15 00:44:48
本文源码: GitHub·点这里 || GitEE·点这里 一、大数据简介 1、基础概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量数据的存储和分析。 2、特点分析 大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 3、发展过程 Google在2004年前后发表的三篇论文,分别是文件系统GFS、计算框架MapReduce、NoSQL数据库系统BigTable。海量数据文件,分析计算,并存储,确立了大数据的基本原理和思路。 天才程序员DougCutting,也是Lucene、Nutch项目发起人。根据Google论文原理初步实现类似GFS和MapReduce的功能,后来发展成为大名鼎鼎的Hadoop。 再后来,Hadoop经过高速的发展,已经形成一个生态体系,基于Hadoop之上,有实时计算,离线计算,NoSQL存储,数据分析,机器学习等一系列内容。 从这一系列事情发展看技术规律:Google业务实践中创造性的提出论文作为基础,业务的成长和需求,迫使技术不断更新换代。所以业务是技术不断发展的关键。 二、Hadoop框架

hadoop2.7.2搭建完全分布式集群

 ̄綄美尐妖づ 提交于 2020-10-13 16:01:41
新建虚拟机 修改虚拟机的静态IP 修改主机名,添加主机和ip的映射关系 关闭防火墙 (1-4 通过脚本完成) 创建普通用户   useradd jinghang   passwd jinghang 配置普通用户具有root权限   vim /etc/sudoers     在91行下添加如下内容:     jinghang ALL=(ALL) NOPASSWD:ALL 完成后:wq! 7.在/opt目录下创建文件夹(software存放压缩软件包,modul存放解压后的软件包) 在/opt目录下创建module、software文件夹 mkdir /opt/module /opt/software 修改module、software文件夹所有者和所属组 chown jinghang:jinghang /opt/module /opt/software 8、关机拍摄快照 9、从拍照位置克隆三台虚拟机 10、克隆虚拟机有两个网卡(三台都需要改): 进入这个文件 vim /etc/udev/rules.d/70-persistent-net.rules  1.删除 NAME="eth0"这一行  2.修改NAME="eth1" -> NAME="eth0" (:wq!)  3.复制ADDR地址(虚拟mac地址)  4.进入到 vim /etc/sysconfig/network

基于 Flink 的典型 ETL 场景实现

北慕城南 提交于 2020-10-10 14:07:36
简介: 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 作者:买蓉 · 美团点评高级技术专家 整理:赵阳(Flink 社区志愿者) 校对:苗浩冲(Flink 社区志愿者) 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 1.实时数仓的相关概述 1.1 实时数仓产生背景 我们先来回顾一下数据仓库的概念。 数据仓库的概念是于90年代由 Bill Inmon 提出, 当时的背景是传统的 OLTP 数据库无法很好的支持长周期分析决策场景,所以数据仓库概念的4个核心点,我们要结合着 OLTP 数据库当时的状态来对比理解。 面向主题的:数据仓库的数据组织方式与 OLTP 面向事务处理不同。因为数据仓库是面向分析决策的,所以数据经常按分析场景或者是分析对象等主题形式来组织。 集成的:对于数据仓库来说,经常需要去集合多个分散的、异构的数据源,做一些数据清洗等 ETL 处理,整合成一块数据仓库,OLTP 则不需要做类似的集成操作。 相对稳定的:OLTP 数据库一般都是面向业务的,它主要的作用是把当前的业务状态精准的反映出来,所以 OLTP 数据库需要支持大量的增、删、改的操作。但是对于数据仓库来说

MapReduce编程实践

倾然丶 夕夏残阳落幕 提交于 2020-10-09 18:48:14
MapReduce编程实践 重要知识点: MapReduce是一种分布式并行编程模型,是Hadoop核心子项目之一,如果已经安装了Hadoop,就不需要另外安装MapReduce。 主要的理论知识点包括:MapReduce概述、MapReduce的工作流程,WordCount实例分析,MapReduce的具体应用。 掌握MapReduce的核心思想、编程模型、工作原理和实例分析。 MapReduce的程序可以用Eclipse编译运行或使用命令行编译打包运行,本实验使用Eclipse编译运行MapReduce程序。 实验内容与步骤: 一、Eclipse的安装与配置 该部分实验前面已经做过,省略 https://blog.csdn.net/weixin_43640161/article/details/108691921 二、Hadoop-Eclipse-Plugin的安装与配置 安装 Hadoop-Eclipse-Plugin 要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 hadoop-eclipse-plugin 下载地址: http://pan.baidu.com/s/1i4ikIoP 下载后,将 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar (还提供了 2.2.0 和 2.4.1 版本)复制到