第1课:通过案例对Spark Streaming透彻理解
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 一.SparkStreaming在线另类实验 如何清晰的看到数据的流入、被处理的过程?使用一个小技巧,通过调节放大BatchInterval的方式,来降低批处理次数,以方便看清楚各个环节。我们从已写过的广告点击的在线黑名单过滤的SparkStreaming应用程序入手。一下是具体的实验源码: package com.dt.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} /** * 背景描述:在广告点击计费系统中,我们在线过滤掉黑名单的点击,进而保护广告商的利益, * 只进行有效的广告点击计费。或者在防刷评分(或者流量)系统,过滤掉无效的投票或者评分或者流量。 * 实现技术:使用transform API直接基于RDD编程,进行join操作 * * Created by Administrator on 2016/4/30. */ object OnlineBlackListFilter { def main(args: Array[String]) { /** * 第一步:创建Spark的配置对象