Hadoop | 易学教程

Apache Flink 零基础入门（二十）Flink connector

阅读更多关于 Apache Flink 零基础入门（二十）Flink connector

内置source和sink 内置source包括从文件读取，从文件夹读取，从socket中读取、从集合或者迭代器中读取。内置的sink包括写文件、控制台输出、socket 内置connectors Apache Kafka (source/sink) Apache Cassandra (sink) Amazon Kinesis Streams (source/sink) Elasticsearch (sink) Hadoop FileSystem (sink) RabbitMQ (source/sink) Apache NiFi (source/sink) Twitter Streaming API (source) HDFS Connector 这个connector提供了一个sink，可以写分区到任何一个文件系统（只要支持hadoop filesystem就可以）。来源： oschina 链接： https://my.oschina.net/u/946962/blog/3106670

centos7下hadoop-3.1.0伪集群搭建

阅读更多关于 centos7下hadoop-3.1.0伪集群搭建

centos7下hadoop-3.1.0集群搭建环境准备 1.服务器概览 hostname ip 说明 node1.spark 192.168.2.140 node1节点(master) node2.spark 192.168.2.141 node2节点 node3.spark 192.168.2.142 node3节点分别在三台服务器上执行以下命令 #添加host [root@node1 ~] vim /etc/hosts 192.168.2.140 node1.spark 192.168.2.141 node2.spark 192.168.2.142 node3.spark #执行以下命令关闭防火墙 [root@node1 ~]systemctl stop firewalld && systemctl disable firewalld [root@node1 ~]setenforce 0 #将SELINUX的值改成disabled [root@node1 ~]vim /etc/selinux/config SELINUX=disabled #重启服务器 [root@node1 ~]reboot 2.配置免密码登录 #node1执行以下命令 #生成密钥Pair,输入之后一直选择enter即可。生成的秘钥位于 ~/.ssh文件夹下 [root@node1 ~]# ssh

OLAP演进实战，Druid对比ClickHouse输在哪里？

阅读更多关于 OLAP演进实战，Druid对比ClickHouse输在哪里？

导读本文介绍eBay广告数据平台的基本情况，并对比分析了ClickHouse与Druid的使用特点。基于ClickHouse表现出的良好性能和扩展能力，本文介绍了如何将eBay广告系统从Druid迁移至ClickHouse，希望能为同业人员带来一定的启发。背景 eBay广告数据平台为eBay第一方广告主（使用Promoted Listing服务的卖家）提供了广告流量、用户行为和效果数据分析功能。广告卖家通过卖家中心（Seller Hub）的营销标签页、效果标签页和公开API，有效掌控和对比店铺的营销活动和推广商品的流量、销量的实时和历史数据，并通过网页或者API 下载数据分析报告。这一系统上线之初使用了自研的分布式SQL引擎，构建在对象存储系统之上。3年前随着广告流量增加，我们把数据引擎切换到Druid上。这一平台的主要挑战如下：数据量大：每日的插入数据记录有数百亿条，每秒的插入峰值接近一百万条；离线数据摄入：在不影响实时数据摄入的情况下，每天需要对前1-2天的数据进行在线替换。根据上游数据团队发布清洗过的每日数据，广告数据平台需要在不影响查询的情况下每日替换实时数据，数据切换要求实现跨节点的全局原子操作；完整性和一致性：面向卖家的财务数据，离线更新后的数据要求不能有遗漏和重复；实时数据要求端对端的延迟在十秒内。 Druid VS. ClickHouse

微服务和大数据性能指标参考和相关组件

阅读更多关于微服务和大数据性能指标参考和相关组件

发布时间：19-07-1720:12 一、引言本文题为微服务和大数据性能指标参考，但实际上，无论是单体架构还是分布式架构、数据规模如何，在设计和开发各种功能性模块时，都需要提前考虑高性能需求水平并按需设计，对各种性能指标进行合理评估，从而尽量减少代码重构的可能性。在完成功能模块的开发以后，还需要使用各种压力测试工具进行性能测试，从而判断代码是否能够满足性能要求，并找出性能瓶颈所在。为了作出更加合理的性能评估值，我们需要先大概的了解一些常用的计算机操作所消耗的时间，从而心中有数的设计出一个符合需求、且易于实现的系统，减小线上系统失败的风险，并能够做到心中有数。二、常用应用层性能指标参考标准以下标准是使用PC X86 桌面机器的经验值，并不代表使用线上生产机器的经验值，仅供参考，评审时应该根据机器的不同进行调整。 2.1 通用标准容量按照峰值的5倍冗余计算。分库分表后的容量一般可存储N年的数据（根据不同机器调整）。第三方查询接口吞吐量为5000/s。单条数据库记录占用大约1KB的空间。 2.2 MySQL 单端口读：1000/s。单端口写：700/s。单表容量：5000万条。 2.3 Redis 单端口读：40000/s。单端口写：40000/s。单端口内存容量：32GB。 2.4 Kafka 单机读：30000/s。单机写：5000/s。2.5 Flume HDFS

大数据时代的结构化存储--HBase

阅读更多关于大数据时代的结构化存储--HBase

迄今，相信大家肯定听说过 HBase，但是对于 HBase 的了解可能仅仅是它是 Hadoop 生态圈重要的一员，是一个大数据相关的数据库技术。今天我带你们一起领略一下 HBase 体系架构，看看它是如何大规模处理海量数据。一、什么是 HBase？关于 HBase 的实现，是基本遵循 Bigtable 的论文。HBase 是一个面向列的分布式数据库，也是个非关系型数据库系统（NoSQL），它建立在 Hadoop 文件系统之上。面向列的数据库是将数据表存储为数据列的一部分而不是数据行的数据库。 HBase 是一个分布式，持久，严格一致的存储系统，具有接近最佳的写入 I / O 通道饱和度和出色的读取性能。而且 HBase 只考虑单个索引，类似于 RDBMS 中的主键，提供服务器端实现灵活的二级索引解决方案。二、为什么使用 HBase？ HBase 是 Hadoop 生态圈中重要的一环，用于存储，管理和处理数据。我们知道 Hadoop HDFS 是无法处理高速随机写入和读取，也无法在不重写文件的情况下对文件进行修改。HBase 正好解决了 HDFS 的缺点，因为它使用优化的方式快速随机写入和读取。此外，随着数据呈指数增长，关系数据库无法提供更好性能去处理海量的数据。HBase提供可扩展性和分区，以实现高效的存储和检索。三、HBase 体系架构我们先来看看 HBase

0668-6.2.0-如何在CDH6.2.0上卸载CDSW1.5

阅读更多关于 0668-6.2.0-如何在CDH6.2.0上卸载CDSW1.5

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1 文档编写目的 Fayson在上一篇文章中介绍了如何在CDH6.2中安装CDSW1.5，参考《 0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5 》，本文主要介绍如何卸载CDSW1.5。测试环境 1.Redhat7.2 2.采用root用户操作 3.CM/CDH6.2.0 4.CDSW版本1.5 2 卸载前准备如果需要保留当前的CDSW数据，可以备份CDSW的Master节点上的/var/lib/cdsw目录。 [root@cdsw cdsw] # tar cvzf cdsw.tar.gz /var/lib/cdsw/* 备份完成。 3 卸载CDSW 从CM进入主机Parcel页面对CDSW的Parcel包停用，删除在CM主页删除CDSW服务删除成功，没有了CDSW 在CM主页删除添加进集群的CDSW主机删除成功。在CDSW的Master节点，删除/var/lib/cdsw目录 [root@cdsw lib] # rm -rf /var/lib/cdsw/ 至此，删除完成。

Hadoop入门基础知识总结

阅读更多关于 Hadoop入门基础知识总结

　　大数据时代的浪潮袭来，Hadoop作为一种用来处理海量数据分析的工具，是每一个大数据开发者必须要学习和掌握的利器。本文总结了Hadoop入门基础知识，主要包括了Hadoop概述、Hadoop的发展历程和Hadoop的特性。下面一起来看看吧! 　　1、Hadoop概述　　Hadoop 是 Apache 旗下的一个用 Java 语言实现开源软件框架，它还是一个开发和运行处理大规模数据的软件平台。Hadoop允许使用简单的编程模型，在大量计算机集群上，对大型数据集进行分布式处理。　　狭义上说，Hadoop 指 Apache 这款开源框架，它的核心组件有：HDFS(分布式文件系统)：解决海量数据存储 ;YARN(作业调度和集群资源管理的框架)：解决资源任务调度;MAPREDUCE(分布式运算编程框架)：解决海量数据计算。　　广义上来说，Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈。当下的 Hadoop 已经成长为一个庞大的体系，随着生态系统的成长，新出现的项目越来越多，其中不乏一些非 Apache 主管的项目，这些项目对 HADOOP 是很好的补充或者更高层的抽象。比如，HDFS：分布式文件系统;MAPREDUCE：分布式运算程序开发框架;HIVE：基于 HADOOP 的分布式数据仓库，提供基于 SQL 的查询数据操作;HBASE

QPS、TPS、并发用户数、吞吐量关系

阅读更多关于 QPS、TPS、并发用户数、吞吐量关系

来源：https://juejin.cn/post/6844904084504313863 QPS 「QPS」 Queries Per Second 是每秒查询率 ,是「一台服务器」每秒能够相应的查询次数，是对一个特定的查询服务器「在规定时间内」所处理流量多少的衡量标准, 即每秒的响应请求数，也即是最大吞吐能力。 TPS 「TPS」 Transactions Per Second 也就是事务数/秒。一个事务是指一个客户机向服务器发送请求然后服务器做出反应的过程。客户机在发送请求时开始计时，收到服务器响应后结束计时，以此来计算使用的时间和完成的事务个数，「QPS和TPS区别」个人理解如下： TPS即每秒处理事务数，包括用户请求服务器服务器自己的内部处理服务器返回给用户这三个过程，每秒能够完成N个这三个过程，TPS也就是N； QPS基本类似于TPS，但是不同的是，对于一个页面的一次访问，形成一个TPS；但一次页面请求，可能产生多次对服务器的请求，服务器对这些请求，就可计入“QPS”之中。「例子」例如：访问一个页面会请求服务器3次，一次访问，产生一个“T”，产生3个“Q” 例如：一个大胃王一秒能吃10个包子，一个女孩子0.1秒能吃1个包子，那么他们是不是一样的呢？答案是否定的，因为这个女孩子不可能在一秒钟吃下10个包子，她可能要吃很久

Airflow2.0.0 + Celery 集群搭建

阅读更多关于 Airflow2.0.0 + Celery 集群搭建

1、说明依赖python环境、基于pip安装apache-airflow 安装过程可能会缺少系统依赖报错如gcc、mysql-devel 之类, 缺什么就 yum install 什么即可 2、airflow + celery架构 3、集群规划服务器hadoop100 服务器hadoop101 服务器hadoop102 web server V scheduler V worker V V V 注意编写DAG文件需要保证在集群每个节点都要同步,因为每个worker都是从本地进行读取执行的, 不像oozie那样上传到HDFS. scheduler仅仅是发送一条要执行哪个DAG下的哪个Task的命令到Queue Broker下, 然后worker再根据命令去指定指定的那个Task. 集群里面的airflow.cfg配置文件也需要保持同步 4、安装 4.1、下载apache-airflow、celery、mysql、redis包 1、在3台机器上都要下载一次以下是在hadoop101上执行, 在hadoop100,hadoop102一样的下载 [hadoop@hadoop101 ~] $ pip3 install apache - airflow==2 . 0 . 0 [hadoop@hadoop101 ~] $ pip3 install apache - airflow

Cassandra和HBase的区别

阅读更多关于 Cassandra和HBase的区别

HBase的卡桑德拉 HBase is based on Bigtable (Google) Cassandra基于DynamoDB（Amazon）。它最初是由前亚马逊工程师在Facebook上开发的。这就是Cassandra支持多数据中心的原因之一。 HBase使用Hadoop基础架构（Zookeeper, NameNode, HDFS）。部署Hadoop的组织必须具有Hadoop和HBase的知识 Cassandra与Hadoop分开启动和发展, 其基础架构和操作知识要求与Hadoop不同。但是, 对于分析, 许多Cassandra部署使用Cassandra + Storm（使用zookeeper）和/或Cassandra + Hadoop。 HBase-Hadoop基础结构具有几个“活动部分”, 包括Zookeeper, 名称节点, HBase主服务器和数据节点, Zookeeper是集群的并且自然地具有容错能力。需要对名称节点进行群集以容错。 Cassandra使用单个节点类型。所有节点均相等, 并执行所有功能。任何节点都可以充当协调器, 从而确保没有Spof。当然, 添加风暴或Hadoop会增加基础架构的复杂性。 HBase非常适合进行基于范围的扫描。 Cassandra不支持基于范围的行扫描, 这在某些用例中可能会受到限制。

订阅 Hadoop