Hadoop

数据中台的终局是将数据变现

天大地大妈咪最大 提交于 2020-10-24 16:16:55
「如何真正理解数据中台? 只有大厂才需要考虑数据中台吗? 数据中台的出现会给企业现有的战略、业务、技术带来哪些挑战?」 与其讨论什么是数据中台,泛零售企业对「如何利用数据中台解决业务问题并带来盈利」更感兴趣。因此,如何利用好数据中台成为新的增长引擎,正成为一门新课题。 在实践过程中,我们发现很多泛零售企业不清楚如何真正用数据中台有效解决业务问题,想要盈利也变得愈加困难。 9月9日「数智·泛零售」03课,地雷老师的分享中提出了建议,在实施数据中台前,泛零售企业必须梳理3个问题: 1、数据中台在泛零售行业中是成本中心,那老板为什么要斥巨资投资做数据中台呢? 2、数据中台落地的每一步,能带来哪些业务收益?上数据中台不同于上ERP、CRM及内部管理系统,数据中台是非常底层,刚开始业务部门可能都感受不到它的存在,需要老板有战略决心。 3、设想中的数据应用,涉及到哪些现有系统和数据? 从以上3个问题总结,其实需要从战略、业务、技术实现三个层面去考虑。 如果你是一位有着多年数据中台建设的老手,看到某些指标,可能你就可以感受到项目实施的成功率。比如说业务部门比IT部门着急,催着IT部门上线,那就对了。意味着有了清晰的战略和业务出口,最忌讳的是先做数据中台,将数据汇集并存起来,未来再进行数据挖掘及变现。 数据中台VS传统数仓 40年前就出现的数据仓库概念和今天盛行的数据中台有何差别

Hadoop实践 | 矩阵乘法

百般思念 提交于 2020-10-24 13:28:53
直接复制 https://blog.csdn.net/liuxinghao/article/details/39958957 这篇博文列举了两种基础的方法,区别在于输入数据的形式, 一种是矩阵形式;一种是(横坐标,纵坐标,值)的形式 同时这篇博文提到关于矩阵运算的应用: 两种实现的reduce阶段,计算最后结果时,都是直接使用内存存储数据、计算结果,所以当数据量很大的时候(通常都会很大,否则不会用分布式处理),极易造成内存溢出,所以,对于大矩阵的运算,还需要其他的转换方式,比如行列相乘运算、分块矩阵运算、基于最小粒度相乘的算法等方式。另外,因为这两份代码都是demo,所以代码中缺少过滤错误数据的部分。 本文使用的第二种 自己建了两个数组,大小为2 ∗ ∗ 3、 3 ∗ ∗ 3 你需要做的就是把 输入文件放进去 配置文件复制到工程src文件件下 复制粘贴 package org.apache.hadoop.examples; import java.io.IOException; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path;

比较全的常见的架构设计思想整理

大憨熊 提交于 2020-10-24 11:51:27
一、MPP 架构 1、MPP架构的基础概念 MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。 简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。 MPP 属于Shared Nothing,根据Shared 的不同,可以分为如下几种: Shared Everthting:一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer Shared Disk:各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。典型的代表Oracle Rac, 它是数据共享,可通过增加节点来提高并行处理的能力,扩展能力较好。其类似于SMP(对称多处理)模式,但是当存储器接口达到饱和的时候,增加节点并不能获得更高的性能 。 Shared Nothing:各个处理单元都有自己私有的CPU/内存/硬盘等,不存在共享资源,类似于MPP

Hadoop学习之路——安装准备

笑着哭i 提交于 2020-10-24 09:47:02
Hadoop环境搭建设备准备篇 目录 Hadoop环境搭建设备准备篇 一、虚拟机环境准备 1、工具准备 2、安装虚拟机 3、克隆,并修改虚拟机配置 一、虚拟机环境准备 学习了一段时间大数据相关的知识,突发奇想想要开个博客来与更多的同行交流学习,做了好久的伸手党,感觉是时候贡献一下了。技术不太精湛,文章仅供参考、交流学习。 1、工具准备 虚拟机:VMware Workstation Pro 15.5 操作系统:CentOS 6.7 2、安装虚拟机 使用VMware搭建虚拟机集群,由于我设备性能有限,所以我这里一共使用三台虚拟机,最佳实验环境为5台,过程基本相同,可以视自己情况而定。三台虚拟机角色分配:Hadoop01:namenode(主) Hadoop02:namenode(备) Hadoop03:datanode 注:仅写需要修改部分,未涉及部分,直接点击下一步即可。 1、新建虚拟机,自定义安装。 2、选择稍后安装操作系统。 3、选择Linux,版本选择:CentOS 6 64位(我这里选择的是我自己的版本,版本可以按照自己的实际情况选择,如果想要我的版本镜像,可以私聊我,或者留下联系方式) 4、重命名虚拟机名称为:Hadoop01 5、选择处理器配置,视情况而定,实验用途,此配置已足够。 6、选择虚拟机内存,视情况而定,实验用途,此配置已足够。 7、选择磁盘大小,视情况而定

python读取hdfs并返回dataframe教程

故事扮演 提交于 2020-10-24 01:44:04
不多说,直接上代码 from hdfs import Client import pandas as pd HDFSHOST = "http://xxx:50070" FILENAME = "/tmp/preprocess/part-00000" #hdfs文件路径 COLUMNNAMES = [xx'] def readHDFS(): ''' 读取hdfs文件 Returns: df:dataframe hdfs数据 ''' client = Client(HDFSHOST) # 目前读取hdfs文件采用方式: # 1. 先从hdfs读取二进制数据流文件 # 2. 将二进制文件另存为.csv # 3. 使用pandas读取csv文件 with client.read(FILENAME) as fs: content = fs.read() s = str(content, 'utf-8') file = open("data/tmp/data.csv", "w") file.write(s) df = pd.read_csv("data/tmp/data.csv", names=COLUMNNAMES) return df 补充知识:Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV 1. 目标 通过hadoop

3.7亿条保单数据怎么分析?这个大数据平台有绝招

萝らか妹 提交于 2020-10-23 07:24:06
受到新冠疫情影响,全球经济面临冲击,国内经济已进入复工复产有序发展的新常态阶段,企业想要实现持续增长需另寻突破点,越来越多的企业把视线转向了企业内部,希望通过推进精细化管理来实现降本增效。 在企业精细化管理过程中,财务管理作为核心组成部分,是企业实现全面价值管理和风险管理的重要前提。因此,越来越多的企业开始引入新的管理形式和数字化系统,通过搭建业财一体化平台,将集团总部、各事业部、各业务条线的业务和财务数据进行统一的处理和加工,形成集团级数据资产,深化数据服务能力,推进集团数字化转型。 大型集团的业财一体化大数据平台,对平台的性能、扩展性要求高,还要考虑到技术的快速迭代和数据量的指数级增长。 华为云EI 智能数据湖FusionInsight为企业提供离线分析、交互查询、实时检索、实时流处理、融合分析、数据仓库等数据全生命周期组件。 叠加在FusionInsight之上的Kyligence,为上层应用提供易用的数据模型服务,帮助分析师和数据工程师轻松从本地到云架构上构建数据服务。 当前,FusionInsight联合Kyligence已在多个大型金融机构进行深度合作,并在诸多场景获得突破,业财一体化就是其中的明星场景。 保险业要“正本清源”,传统数据仓库已落后 在某产险公司保费增速和综合成本率双优目标背景下,需要以管理会计的全新视角归集财务成本,保证一线销售资源正本清源

json数据写入hbase

空扰寡人 提交于 2020-10-22 12:12:41
package main.scala.com.web.zhangyong168.cn.spark.java; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.TableName; import org.apache.hadoop.hbase.client.*; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.util.Bytes; import java.io.IOException; import java.util.ArrayList; import java.util.LinkedHashMap; import java.util.List; import java.util.Map; /** * @author daniel * @version 1.0.0 * @description : json数据写入hbase * @date 2020/05/28 10:55 */ public class WriteHbase { private Admin admin; /** * 获取hbase hadoop 的相关配置文件 * * @return *

分布式文件存储hdfs Java API读写示例

橙三吉。 提交于 2020-10-22 08:44:22
1、新建一个maven工程,pom.xml中添加hadoop-common,hadoop-hdfs引用。 < dependency > < groupId > org.apache.hadoop < /groupId > < artifactId > hadoop-common < /artifactId > < version > 2.7.0 < /version > < /dependency > < dependency > < groupId > org.apache.hadoop < /groupId > < artifactId > hadoop-hdfs < /artifactId > < version > 2.7.0 < /version > < /dependency > 2、将部署在centos7上的hadoop的配置文件core-site.xml、hdfs-site.xml、log4j.properties拷贝到工程中的resources目录下, 3、hdfs读文件示例 package com.che.hdfs ; import java.io.IOException ; import java.io.OutputStream ; import org.apache.hadoop.conf.Configuration ; import org.apache

QQ音乐PB级ClickHouse实时数据平台架构演进之路

旧城冷巷雨未停 提交于 2020-10-22 08:26:13
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。 文章目录 1 一、背景介绍 2 二、大数据分析的挑战 2.1 1. 时效性低 2.2 2. 易用性低 2.3 3. 流程效率低 3 三、QQ音乐大数据架构技术演进 3.1 1. ClickHouse介绍 3.2 2. ClickHouse架构系统技术攻克点 3.3 3. 基于Superset的自助数据分析可视化平台 4 四、QQ音乐与腾讯云EMR共建云端OLAP 5 结语 一、背景介绍 QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听、看、玩”的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超过3000万首歌曲的海量曲库。优质服务的背后,是每天万亿级新增音乐内容和行为数据,PB数据量级的数据计算服务。 海量的数据意味着更高标准的数据分析业务,对于离线分析的时效、实时与近实时的即席实时交互分析,提出了更高的要求。如何通过用户行为以及音乐内容标签数据,深入洞察用户需求,来优化泛音乐内容创作分享生态,为亿万用户带来更优质的音乐体验

超详细的hadoop伪分布配置教程

╄→гoц情女王★ 提交于 2020-10-22 02:01:06
创建虚拟机:1 配置静态ip:2 第一步是首先查看虚拟网络编辑器。查看网关和起始结束ip 如果不能ping网络则可能是以下问题: xshell连接虚拟机: 接下来我们就在usr/local目录下传文件 这里说一下返回上一级目录的命令是cd.. 接下来配置java和hadoop的环境变量但是配置环境变量前要先进虚拟机中原有的java包删掉 接下来配置ssh无密码登陆以及主机名和主机和ip映射以及主节点 去到usr/local路径解压java和hadoop 关闭防火墙: 查看防火墙状况 systemctl status firewalld . service 关闭防火墙:systemctl stop firewalld.service 永久关闭防火墙: systemctl disable firewalld . service 配置环境变量: #java环境变量 JAVA_HOME = / usr / local / jdk1 . 8.0 _241 HADOOP_HOME = / usr / local / hadoop - 2.7 .1 CLASSPATH = . :$JAVA_HOME / lib / dt . jar:$JAVA_HOME / lib / tools . jar PATH = $JAVA_HOME / bin:$HADOOP_HOME / bin:$HADOOP