Apache Spark | 易学教程

Spark-Streaming

阅读更多关于 Spark-Streaming

监听文件流创建文件在log1.txt输入 A终端打开spark-shell,输入命令此时监听端已打开 A终端创建新文件log2.txt I love Hadoop I love Spark Spark is slow A结果显示： spark监听套接字流安装nc工具，并开启端口9999 nc -lk 9999 9999端口如果没打开tcp，需要使用farewall命令开启编写监听程序 import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.storage.StorageLevel object NetworkWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println("Usage: NetworkWordCount <hostname> <port>") System.exit(1) } StreamingExamples.setStreamingLogLevels() // Create the context with a 1 second batch size val sparkConf = new SparkConf()

bilibili大数据一面问题梳理

阅读更多关于 bilibili大数据一面问题梳理

Blibli一面 1：kfk 整体架构的三个概念（名词） 2：kfk broker里的名词 3：kfk 分区一个消费的慢，一个消费的快，这是什么原因，怎么分析呢 4：kfk的分区副本follower同步leader流程说明下 5：查看磁盘、网络IO，顺序读写、随机读写的方法 6：kfk 某主题10个分区，消费者组有11个消费者线程，那么第十一个线程会干什么 7：zero copy原理描述下 8：zero copy生效的场景是什么,kfk 生产进来一大批数据、今天不消费，明天消费，那么会用到zero copy吗 9：kfk map file的配置 10：kfk启动时加载的是什么文件 11：ISR列表缺失问题处理方法 12：内核级调优用过哪些？ 13：hadoop HDFS 的组件罗列下 14：zkfc的作用 15：CAP理论描述下 16：journeyNode的作用 17：NN HA failOver流程概述下 18：HBASE、Kfk的CLOSE_WAIT现象有哪些 19：TCP、三次握手四次挥手 20：如何查看一个broker的流量数据流出？消费、生产端ip信息如何获取？本文分享自微信公众号 - 小晨说数据（flink-spark）。如有侵权，请联系 support@oschina.cn 删除。本文参与“ OSC源创计划 ”，欢迎正在阅读的你也加入，一起分享。来源：

PowerBI-PowerQuery 有奖知识问答获奖名单

阅读更多关于 PowerBI-PowerQuery 有奖知识问答获奖名单

本周的PowerQuery有奖知识问答活动，有很多战友来支持并与猴子大仙切磋武艺。这里不乏一些做得很好的作品。获奖名单综合：答题数量答题方法回复时间综合评价以下几位战友获得本次活动赠书，他们是： SPARK.WANG@powerbichina.onmicrosoft.com stronger_geng@moduslink.com yuezhaoputi@qq.com my-emile@qq.com 66124661@qq.com （排名不分先后）请上述战友主动微信联系BI佐罗，获得赠书。还有很多战友也做得很好，请大家保持热情，我们后续还有各项活动。神奇解法其中有位战友很认真的用非PowerQuery解法解决了本题，让大家一起开开眼：第一题第二题第三题第四题小结可以看出，这位战友在处理数据的时候完全用了办公的方式来进行，除了有很丰富的经验，也有着很其强大的想象力。而上述方法却并非标准的数据准备套路。相信，这位战友再研习 PowerQuery 以后，可以对数据准备和处理有更多的技能更新。当然，这么认真地使用非 PowerQuery 的方法来处理数据，再理解 PowerQuery 的方式，相信可以学习到更多的体会。我们一点也不排斥大家用各种方法来解决问题，而正是在这样的五花八门的方法中，我们也将不断体会到 PowerQuery

Spark学习之Spark Streaming

阅读更多关于 Spark学习之Spark Streaming

一、简介　　许多应用需要即时处理收到的数据，例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用，还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。　　和 Spark 基于 RDD 的概念很相似，Spark Streaming 使用离散化流（discretized stream）作为抽象表示，叫作 DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而 DStream 是由这些 RDD 所组成的序列（因此得名“离散化”）。DStream 可以从各种输入源创建，比如 Flume、Kafka 或者 HDFS。创建出来的 DStream 支持两种操作，一种是转化操作（transformation），会生成一个新的DStream，另一种是输出操作（output operation），可以把数据写入外部系统中。DStream提供了许多与 RDD 所支持的操作相类似的操作支持，还增加了与时间相关的新操作，比如滑动窗口。　　和批处理程序不同，Spark Streaming 应用需要进行额外配置来保证 24/7 不间断工作。Spark Streaming 的检查点

大数据复习案例

阅读更多关于大数据复习案例

happybase操作Hbase语法： import happybase ## 链接HBase数据库 conn = happybase.Connection(host=’localhost’, port=9090, timeout=None, autoconnect=True, table_prefix=None, table_prefix_separator=b’_’, compat=’0.98’, transport=’buffered’, protocol=’binary’) ## 创建表 conn.create_table( 'shop', { 'interfaceInfo' :dict(max_version=4), 'inputInfo' :dict(max_version = 4) } ) #插入 table = conn.table("shop") with table.batch() as bat: bat.put('0001',{'interfaceInfo:inter_show':'HDM1', 'interfaseInfo:inter_network':'10Mbps', 'interfaceInfo:inter_three':'1个','interfaceInfo:inter_Type-c':'1个'}) bat.put('0001',{

数据中台全景架构及模块解析！一文入门中台架构师！

阅读更多关于数据中台全景架构及模块解析！一文入门中台架构师！

回顾一下，第一篇文章大白话六问数据中台！你想知道的都在这了！。把数据中台是什么？为什么？有什么价值？说的明明白白。数据中台是企业级能力复用平台，目标是让数据持续用起来，通过数据中台提供的工具、方法和运行机制，把数据变为一种服务能力，让数据更方便地被业务所使用。今天就来点实际干货，把企业真实数据平台架构分享给您！相信看完这篇文章，你会真正对数据中台有一个全景的认识与理解，从抽象过度到具体。无图无真相，我赶紧po一张数据中台总体架构图：数据中台是在底层存储计算平台与上层的数据应用之间的一整套体系，屏蔽掉底层存储平台的计算技术复杂性，降低对技术人才的需求，可以让数据的使用成本更低。如果用三句话来概括数据中台的组成架构，那么一定是：通过数据中台的数据汇聚、数据开发模块建立企业数据资产。通过资产管理与治理、数据服务把数据资产变为数据服务能力，服务于企业业务。数据安全体系、数据运营体系保障数据中台可以长期健康、持续运转。现在您已经知道了，数据中台离不开这几个模块：数据汇聚、数据开发、资产管理、数据安全、数据服务。那么赶紧跟上我的脚步潜入内部去一探究竟吧。数据汇聚数据汇聚，首先必然要有数据来源，有了数据来源之后，需要确定采集工具，有了采集工具之后你还要确定存储位置。数据来源数据是数据中台的核心，所以数据汇聚无疑是数据中台的入口。企业中的数据来源极其多

阿里云实时大数据解决方案，助力企业实时分析与决策

阅读更多关于阿里云实时大数据解决方案，助力企业实时分析与决策

性能高1倍，价格低3/4！数据库实时同步新选择！实时分析决策的第一步就需要将数据实时同步到大数据计算引擎，DataWorks数据集成采用自研高性能引擎，在相同的机器规格情况下，RDS实时同步性能最高为其他数据同步方案的2倍，而价格可低至其1/4。通过DataWorks数据集成，企业可以进行高效、低成本、稳定的实时数据同步。 DataWorks数据集成可以追溯到2011年的DataX1.0和2.0版本，随后3.0版本正式对外提供服务，再后来公有云、专有云、阿里内部功能三版合一，建立了Data Integration 服务。在2019年，DataWorks数据集成完成了商业化，独享资源组上线，按量付费、包年包月的付费方式也成功面向了用户。在2020年，全增量实时同步解决方案正式发布。在全增量实时同步解决方案系统中，可以从MySql、Oracle、IBM DB2、SQL server、POLARDB等关系型数据库中全量离线同步到MaxCompute、Hologres、Elasticsearch、Kafka、DataHub等大数据产品中，再实现实时抽取关系型数据库的变更信息，同步到大数据产品中。像MaxCompute这种离线数仓，可以通过同步到Log表、拆分至Delta表、Merge到Base表，最后再写入MaxCompute这样的方式做实时增量同步。

spark on yarn 资源计算

阅读更多关于 spark on yarn 资源计算

1、spark job 提交模式 spark on yarn 分两种情况，一种是yarn-client 提交，一种是yarn-cluster提交方式，两种方式的区别是： yarn-cluster模式下，driver运行在AM(Application Master)中，它负责向YARN申请资源，并监督作业的运行状况。当用户提交了作业之后，就可以关掉Client，作业会继续在YARN上运行； yarn-client模式下，Application Master仅仅向YARN请求executor，client会和请求的container通信来调度他们工作；其中yarn集群包含RM，NM，AM的概念如下： ResourceManager：是集群所有应用程序的资源管理器，能够管理集群的计算资源并为每个Application分配，它是一个纯粹的调度器。 NodeManager：是每一台slave机器的代理，执行应用程序，并监控应用程序的资源使用情况。 Application Master：每一个应用程序都会有一个Application Master，它的主要职责是向RM申请资源、在每个NodeManager上启动executors、监控和跟踪应用程序的进程等。 spark中driver的作用： - 运行应用程序的main函数 - 创建spark的上下文 - 划分RDD并生成有向无环图

送书啦，端午节送3本书，文章末抽奖

阅读更多关于送书啦，端午节送3本书，文章末抽奖

导读：目前我国大数据产业发展已步入行业规模快速增长时期，随着 “ 新基建 ” 越来越受重视，大数据产业也将迎来发展新机遇。今天，小编带大家了解一些热门的大数据技术，以及一些硬核好书。来源：华章计算机（hzbook_jsj）目前我国大数据产业发展已步入行业规模快速增长时期，随着云时代的来临，大数据技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产要素，人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析技术将帮助企业用户在合理时间内攫取、管理、处理、整理海量数据，为企业经营决策提供积极的帮助。大数据分析作为数据存储和挖掘分析的前沿技术，广泛应用于物联网、云计算、移动互联网等战略性新兴产业。大数据在用户画像建模、个性化推荐与精准营销中的应用占比越来越大。在众多数据分析方法中，用户画像几乎是后期数据工作的“标配”，适用于应用层的个性化推荐、精准营销、客群管理和运营等各个场景。用户画像是数据分析和算法工程都无法绕过的话题，小编为大家推荐《用户画像：方法论与工程化解决方案》。赵宏田著这是一本从技术、产品和运营3个角度讲解如何从0到1构建一个用户画像系统的著作，同时它还为如何利用用户画像系统驱动企业的营收增长给出了解决方案。书中手把手教授工程实现、模型搭建、应用场景等内容

Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permissio...

阅读更多关于 Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permissio...

保存文件时权限被拒绝曾经踩过的坑：保存结果到hdfs上没有写的权限通过修改权限将文件写入到指定的目录下 * * * $HADOOP_HOME/bin/hdfs dfs -chmod 777 /user * * * Exception in thread "main" org.apache.hadoop.security.AccessControlException: * Permission denied: user=Mypc, access=WRITE, * inode="/":fan:supergroup:drwxr-xr-x package cn.spark.study.sql; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.SaveMode; /** * SaveModel示例 * * @author 张运涛 * */ public class SaveModeTest { @SuppressWarnings(

订阅 Apache Spark