大数据(七十五)Spark【Spark Streaming介绍&WorldCount】
一、Spark Streaming架构 如下图所示,DStream(Discretized Stream)是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark原语操作后的结果数据流。DStream是一个抽象的概念,是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据。在这一个时间间隔内进行RDD计算。 二、WorldCount java代码如下: package com.zjt; import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFunction; import org.apache.spark.streaming.Durations; import org.apache.spark.streaming.api.java.JavaDStream; import org.apache.spark.streaming.api.java.JavaPairDStream;