Apache Spark

北京IT届(清华博士总结的干货大数据学习路线

夙愿已清 提交于 2019-11-26 17:12:38
一,题记 要说当下IT行业什么最火?ABC无出其右。所谓ABC者,AI + Big Data + Cloud也,即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据Big Data这个方向。 二,大数据里面的角色 角色一:大数据工程 大数据工程需要解决数据的定义、收集、计算与保存的工作,因此大数据工程师们在设计和部署这样的系统时首要考虑的是数据高可用的问题,即大数据工程系统需要实时地为下游业务系统或分析系统提供数据服务; 角色二:大数据分析 大数据分析角色定位于如何利用数据——即从大数据工程系统中接收到数据之后如何为企业或组织提供有产出的数据分析,并且确实能够帮助到公司进行业务改善或提升服务水平,所以对于大数据分析师来说,他们首要解决的问题是发现并利用数据的价值,具体可能包括:趋势分析、模型建立以及预测分析等。 这两类角色相互依存但又独立运作,何意?没有大数据工程,大数据分析便无从谈起;但倘若没有大数据分析,我也实在想不出大数据工程存在的理由。这就类似于结婚和谈恋爱——恋爱的目的是为了结婚,且不以结婚为目的的谈恋爱都是耍流氓。 简单总结一下,大数据工程角色需要考虑数据的收集、计算(或是处理)和保存;大数据分析角色则是执行数据的高级计算。 三,大数据工程师 针对角色一:大数据工程说,对应的工作岗位就叫大数据工程师,对于大数据工程师而言

大数据统计的几种工具

风流意气都作罢 提交于 2019-11-26 11:20:38
spark pandas awk 其他时间序列数据库. SQL netstat -n|awk '/^tcp/ {++arr[$NF]} END{for(k in arr)print k,arr[k]}' spark 什么要做shuffle? 节点间通信,免去了数据的重复计算. 为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题, http://people.csail.mit.edu/matei/papers/2012/nsdi_spark.pdf 来源: oschina 链接: https://my.oschina.net/innovation/blog/3133625

腾讯开源进入爆发期,Plato助推十亿级节点图计算进入分钟级时代

天大地大妈咪最大 提交于 2019-11-26 10:01:48
腾讯开源再次迎来重磅项目,14日,腾讯正式宣布开源高性能图计算框架Plato,这是在短短一周之内,开源的第五个重大项目。 相对于目前全球范围内其它的图计算框架,Plato可满足十亿级节点的超大规模图计算需求,将算法计算时间从天级缩短到分钟级,性能全面领先领先于其它主流分布式图计算框架,并且 打破了原本 动辄 需要数百台服 务 器的 资 源瓶 颈 , 现 在,最少只需要十台服 务 器即可完成 计 算 。 腾讯Plato团队负责人于东海表示:“Plato已经支持腾讯内部包括微信在内的众多核心业务,尤其是为腾讯超大规模社交网络图数据的各类计算提供支撑,解决了现有其他计算框架无法在有限资源和有限时间内完成计算的难点。Plato不仅为腾讯创造了巨大的业务价值,开源后还将持续推动图计算技术和行业的协同发展,加速创新。” 实际上,图计算的“图”并不是指普通的图像和照片,而是用于表示对象之间关联关系的一种抽象数据结构,图计算就是以图作为数据模型来表达问题并予以解决的过程。图计算可以将不同来源、不同类型的数据融合到同一个图里进行分析,得到原本独立分析难以发现的结果,因此成为社交网络、推荐系统、网络安全、文本检索和生物医疗等领域至关重要的数据分析和挖掘工具。 Plato是腾讯内部图计算TGraph团队整合内部资源自主研发的一款高性能图计算框架,取名Plato是为了致敬伟大的数学家柏拉图

Spark internal

江枫思渺然 提交于 2019-11-26 09:48:00
SparkStream 如何使用checkpoint ? 都 9102 年了,就不要用 RDD 和 DStream API 了吧…… DataFrame/Dataset 和 Structured Streaming 是在RDD 和 DStream 上层. Spark SQL and DataFrames Structured Streaming Programming Guide 来源: oschina 链接: https://my.oschina.net/innovation/blog/3130277

10亿数据秒级展示,FineBI5.0的大数据支撑有个“幕后BOSS”!

人盡茶涼 提交于 2019-11-25 22:21:47
随着各个业务系统的不断增加,以及各业务系统数据量不断激增,业务用户的分析诉求越来越多且变化很快,IT数据支撑方的工作变得越来越复杂。 1、数据来自多个不同的系统,存在需要跨数据源分析,需要对接各种不同数据源等问题。 2、需要分析的数据体量越来越大,并且要快速获得分析结果的问题。 3、部分数据还需要二次加工处理的问题。 为了解决日益激增的大数据量分析诉求,大部分公司会通过搭建Hadoop、Spark等大数据架构,配以BI工具做数据层面的分析,来搭建这样一整套大数据分析平台。 大数据分析很关键的一个点在于性能:取数快不快,分析响应快不快,能否实时? 这个问题除了平台的底层架构,BI的运行性能也有很大相关。 大家可能普遍认为的BI,就是一个数据展现工具,在前端看起来没有太多有技术含量的操作,但背后的逻辑十分复杂,实现难度也很大。就像看得到的是冰山一角,看不到的是海水下绝大部分的支撑。 好的BI工具都有与之依赖的数据引擎,数据引擎的作用一方面是数据响应的性能(数据量、速率),还有很重要的一点是能否适应企业不同业务情况的模式/方案。比如小数据快速读取,大数据分布式并行运算,节点数据实时展现等等..... FineBI V5.0版本就是一个可以支撑以上需求的工具,背后依赖的是Spider大数据引擎。 Spider高性能引擎可以支撑 10亿量级 数据在BI前端快速的拖拽分析和展示

使用Maven导出项目依赖的jar包

蓝咒 提交于 2019-11-25 20:47:17
步骤 1、进入项目目录(有pom.xml的目录) 2、创建存放导出jar依赖包的目录 3、地址栏输入cmd,回车 4、输入导出命令,回车 mvn dependency:copy-dependencies -DoutputDirectory=dependency_lib 5、导出成功,再查看输出jar依赖包的目录 如果想查找依赖中是否存在某包:mvn dependency:tree |grep spark-core_2.1 来源: oschina 链接: https://my.oschina.net/9199771/blog/3133507

Spark读写Hbase数据

别说谁变了你拦得住时间么 提交于 2019-11-25 16:54:43
环境 spark: 2.4.3 hbase: 1.1.5 步骤 启动hadoop-3.1.2,hbase2.2.0 把HBase的lib目录下的一些jar文件拷贝到Spark中,这些都是编程时需要引入的jar包,需要拷贝的jar文件包括:所有hbase开头的jar文件、guava-12.0.1.jar、protobuf-java-2.5.0.jar hbase建表,插入数据 idea开发spark操作hbase代码 build.sbt spark读取hbase数据 import org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.util.Bytes import org.apache.hadoop.hbase.{HBaseConfiguration, TableName} import org.apache.spark.{SparkConf, SparkContext} object SparkOperateHBase { def main(args: Array[String]) { val conf = HBaseConfiguration.create() val sc = new