Apache Spark

云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

随声附和 提交于 2020-10-30 11:41:02
简介: 数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。 行业综述 全民娱乐时代,网络互娱市场持续保持高速增长 随着互联网的普及以及技术的发展,互联网娱乐行业的发展也日渐成熟。从早期单一门户网站,到个人博客的流行,再到视频网站的壮大。以及这两年层出不穷的短视频、直播、资讯平台等,网络娱乐行业的发展也正在从内容为王,开始往大数据驱动内容创新与推广的方向进行发展。 随着生活条件的变好,人们进入了娱乐即生活,生活即娱乐的时代。如同互联网时代到来引爆信息爆炸一样,互联网娱乐的兴起和发展同样有爆发力。据统计,截至2019年6月,我国网络直播用户规模达4.33亿,较2018年底增长3646万。而网络视频的用户更是达到7.59亿,较2018年底增长3391万。 尤其是在15年前后,随着4G的普及以及智能机的大众化,互联网娱乐行业迎来了一次流量红利时期,在这个时期,各种资讯、视频、直播、社交等软件如雨后春笋般冒出,大量的用户开始涌入。在当时只要是有稍微优质的内容输出,就能为作者或是整个平台带来巨大的流量。 行业发展方向 流量红利消失,用户增长陷入瓶颈 但是到了2020年

【2020-10-28】加油打工人

百般思念 提交于 2020-10-30 08:52:16
我的大学 普通二本,电子信息工程专业,没的说,学不到啥东西,考试真的很水,一学期不听课,期末复习都能考个七八十,运气好还能上9,比起辛辛苦苦听课也考九十几得我来说不值一提。 培训班千万别去,他只是一个监督你学习的地方,你连自己都监督不了,怎么可能学的好呢? 做了两年竞赛,省一二三都拿过,你要是找专业对口的工作还有点用。 大三觉得自己专业没出路,自己学了java、mysql、大数据框架(hadoop、hive、flume、hbase、spark、flink),大数据这东西还挺吃香,但是你没有实际的项目经验,做的网上的小玩意,工作还是很难找的,不过你要是深入了解并且懂了,那么你就是大佬。 大四上做了毕设,下学期去实习了。 其他同学考研、考公、找工作的、还有去当兵的。 真想念那些日子,即使在实习,也每周五坐夜车回去学校跟他们一起看LPL,那时候还没有轻轨,做的大巴,一躺就要一个半小时,顺便在车上给爸妈打电话。 杭漂人 今年刚毕业,普通二本,很后悔当初没有考研,直到找工作跟你谈薪资的时候,看到是普通本 科的,直接给你刷掉2-3K,很现实的一个东西。 有两段实习经历,去年十月份开始的,到现在有一年多的工作经验了 ,第一次实习坎坎坷坷,做的是数据仓库的东西,应为是实习生,干的都是一些体力活,偶尔加一点脑力的,所以做了两个多月,就走人了,也没学到啥东西。 第二段实习,就是我现在做的工作

Flink基于Kafka-Connector 数据流容错回放机制

可紊 提交于 2020-10-29 10:54:28
Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战-Flink牛刀小试 Flink牛刀小试系列目录 Flink牛刀小试-Flink 集群运行原理兼部署及Yarn运行模式深入剖析 Flink牛刀小试-Flink Window类型及使用原理案例实战 Flink牛刀小试-Flink Broadcast 与 Accumulators 应用案例实战 Flink牛刀小试-Flink与SparkStreaming之Counters& Accumulators 累加器双向应用案例实战 Flink牛刀小试-Flink分布式缓存Distributed Cache应用案例实战 Flink牛刀小试-Flink状态管理与checkPoint数据容错机制深入剖析 Flink牛刀小试-Flink Window分析及Watermark解决乱序数据机制深入剖析 Flink牛刀小试-Flink Restart Strategies 重启策略机制深入剖析 Flink牛刀小试-Flink CheckPoint状态点恢复与savePoint机制对比剖析 Flink牛刀小试-Flink SQL Table 我们一起去看2018中超联赛 Flink牛刀小试-Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战 [Flink牛刀小试-Flink

Spark Standalone spark-default.conf

妖精的绣舞 提交于 2020-10-29 07:36:49
Example: spark.master spark://master:7077 spark.eventLog.enabled true spark.eventLog.dir hdfs://namenode:8021/directory spark.serializer org.apache.spark.serializer.KryoSerializer spark.driver.memory 5g spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three" spark.eventLog.enabled true spark.eventLog.dir hdfs://flashHadoop/spark/log spark.eventLog.compress true spark.local.dir=/data1/data/spark/local spark.ui.enabled true spark.ui.killEnabled false spark.ui.port 18080 spark.history.ui.port 18080 spark.history.fs.cleaner.enabled true spark.history.fs

Pyspark笔记一

杀马特。学长 韩版系。学妹 提交于 2020-10-29 06:43:01
1. pyspark读csv文件后无法显示中文 # pyspark读取csv格式时,不能显示中文 df = spark.read.csv(r " hdfs://mymaster:8020/user/root/data_spark.csv " , schema= schema) # 解决方法,加入encoding='gbk',即 df = spark.read.csv(r " hdfs://mymaster:8020/user/root/data_spark.csv " , schema=schema, encoding= ' gbk ' ) 2. 查看和修改默认编码格式 import sys # 查看默认编码格式 print (sys.getdefaultencoding()) # 修改编码格式 sys.setdefaultencoding( ' utf8 ' ) #参考:https://blog.csdn.net/abc_321a/article/details/81945577 3. pyspark导入spark 原因:python中没有默认的sparksession,需要导入 # 方法 from pyspark import SparkContext from pyspark.sql.session import SparkSession sc = SparkContext(

基于JindoFS+OSS构建高效数据湖

送分小仙女□ 提交于 2020-10-29 04:29:24
作者 :孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。 为什么要构建数据湖 大数据时代早期,Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展,所有云厂商都在不断完善自家的对象存储,来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。由于对象存储有海量、安全、低成本、高可靠、易集成等优势,各种 IoT 设备、网站数据都把各种形式的原始文件存储在对象存储上,利用对象存储增强和拓展大数据 AI 也成为了业界共识,Apache Hadoop 社区也推出了原生的对象存储“Ozone”。从 HDFS 到对象存储,从数据仓库到数据湖,把所有的数据都放在一个统一的存储中,也可以更加高效地进行分析和处理。 对于云上的客户来说,如何构建自己的数据湖,早期的技术选型非常重要,随着数据量的不断增加,后续进行架构升级和数据迁移的成本也会增加。在云上使用 HDFS 构建大规模存储系统,已经暴露出来不少问题。HDFS 是 Hadoop 原生的存储系统,经过 10 年来的发展,HDFS 已经成为大数据生态的存储标准,但我们也看到 HDFS 虽然不断优化,但是 NameNode 单点瓶颈

0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5

筅森魡賤 提交于 2020-10-29 01:24:27
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1 文档编写目的 Cloudera在2019年1月29日发布CDSW1.5,CDSW1.5的一个最大的更新就是支持CDH6和HDP,在1.5之前,CDSW是不能安装到CDH6.x的。CDH5.13版本以后支持CDSW的Parcel安装,本篇文章Fayson就主要讲述如何通过CM6.2使用Parcel包安装CDSW1.5。 CDSW需要DNS服务和泛域名解析,可以参考Fayson以前的文章 《 如何在Windows Server2008搭建DNS服务并配置泛域名解析 》、《 如何利用Dnsmasq构建小型集群的本地DNS服务器 》、《 如何在Windows Server2012搭建DNS服务并配置泛域名解析 》,《 如何在RedHat6上使用Bind搭建DNS服务 》或《 如何在RedHat7上使用Bind搭建DNS服务 》,CDSW1.5的新功能可以参考《 0544-CDSW1.5的新功能 》 。 搭建DNS服务推荐Dnsmasq,小巧可爱特方便。 内容概述 1.部署CDSW parcel及安装CSD文件 2

用户画像产品化涵盖的功能模块以及应用场景

£可爱£侵袭症+ 提交于 2020-10-28 16:42:10
开发画像后的标签数据,如果只是“躺在”数据仓库中,并不能发挥更大的业务价值。只有将画像数据产品化后才能更便于业务方使用。在本 文 中,Web端展示的数据都读取自MySQL这类的关系型数据库,MySQL中存储的数据源自Hive加工后,通过Sqoop同步的结果集。 本 问 主要介绍用户画像产品化后主要可能涵盖到的功能模块,以及这些功能模块的应用场景。 01  即时查询 即时查询功能主要面向数据分析师。将用户画像相关的标签表、用户特征库相关的表开放出来供数据分析师查询。 Hive存储的相关标签表,包括userid和cookieid两个维度。 dw.userprofile_attritube_all:存储用户人口属性维度的标签。 dw.userprofile_action_all:存储用户行为属性维度的标签。 dw.userprofile_consume_all:存储用户消费商品维度的标签。 dw.userprofile_riskmanage_all:存储风控维度的标签。 dw.userprofile_social_all:存储社交维度的标签。 dw.userprofile_cookielabel_map_all:对每个cookieid身上的标签做汇聚后输出。 dw.userprofile_usergroup_labels_all:用户人群分组表。查询应用到业务系统下面

如何使用云原生数据湖,助力线上教育行业逐步智能化

你离开我真会死。 提交于 2020-10-28 12:44:34
简介: 阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。 行业综述 线下教育行业因疫情受挫,线上教育却逆势增长 随着90年代互联网的引入,在线教育产品也依托于互联网诞生。随着互联网技术的发展,在线教育产品也开始了出现新的模式。在线教育从最初单纯的文字形式,开始往图片、音频方面开始发展。加上这几年直播技术的发展和人工智能等技术在在线教育的应用,在线教育成为今年疫情影响下,为数不多能实现逆势增长的行业。 由于疫情的影响,教育行业根据中央疫情防控工作部署,直接暂停各类线下授课,不举办任何形式的聚集性培训活动。在此期间各类线下培训机构遭受重创,某知名线下教育机构上半年营收同期降低30%,净亏损将近1亿。 和线下教育不同的是,线上教育行业整体呈现逆势增长的态势,根据数据显示,2020年中国在线教育用户规模预计将达到3.51亿人,预计市场规模将达到4858亿元。同时由于疫情的影响,三月份在线教育市场渗透率更是高达85%,增长率是2019年的5倍以上。 行业发展方向 在线教育向数据化发展,行业逐步智能化 教育在线化也进一步促进了数据化的发展,内容作为教育企业的核心资产,无论是数据化程度还是数据化规模都不断提升;同时用户使用时长的提升,又为教育AI提供了大量源数据。据统计今年3月份在线教育用户日均在线时长,超过200万天

pip离线安装python包 && 修改 pip 源

无人久伴 提交于 2020-10-28 09:51:38
1 首先在一台能上网的机器上得到python包 1) 新建一个空目录,如 /home/ubuntu/zcy/ss,用来存储下载下来的所需安装包 2)下载安装包:pip install --download /home/ubuntu/zcy/ss pyspark 2 离线安装 1)将/home/ubuntu/zcy/ss下面的文件拷贝到不能上网的机器上,如拷贝到/home/zcy/working/spark目录 2)安装:pip install --no-index --find-links=/home/zcy/working/spark pyspark 参考资料:https://www.cnblogs.com/michael-xiang/p/5690746.html ======================================== 网上有很多可用的源,例如豆瓣: http://pypi.douban.com/simple/ 清华: https://pypi.tuna.tsinghua.edu.cn/simple 临时使用: 可以在使用pip的时候加参数-i https://pypi.tuna.tsinghua.edu.cn/simple 例如:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gevent