Apache Spark

3.7亿条保单数据怎么分析?这个大数据平台有绝招

萝らか妹 提交于 2020-10-23 07:24:06
受到新冠疫情影响,全球经济面临冲击,国内经济已进入复工复产有序发展的新常态阶段,企业想要实现持续增长需另寻突破点,越来越多的企业把视线转向了企业内部,希望通过推进精细化管理来实现降本增效。 在企业精细化管理过程中,财务管理作为核心组成部分,是企业实现全面价值管理和风险管理的重要前提。因此,越来越多的企业开始引入新的管理形式和数字化系统,通过搭建业财一体化平台,将集团总部、各事业部、各业务条线的业务和财务数据进行统一的处理和加工,形成集团级数据资产,深化数据服务能力,推进集团数字化转型。 大型集团的业财一体化大数据平台,对平台的性能、扩展性要求高,还要考虑到技术的快速迭代和数据量的指数级增长。 华为云EI 智能数据湖FusionInsight为企业提供离线分析、交互查询、实时检索、实时流处理、融合分析、数据仓库等数据全生命周期组件。 叠加在FusionInsight之上的Kyligence,为上层应用提供易用的数据模型服务,帮助分析师和数据工程师轻松从本地到云架构上构建数据服务。 当前,FusionInsight联合Kyligence已在多个大型金融机构进行深度合作,并在诸多场景获得突破,业财一体化就是其中的明星场景。 保险业要“正本清源”,传统数据仓库已落后 在某产险公司保费增速和综合成本率双优目标背景下,需要以管理会计的全新视角归集财务成本,保证一线销售资源正本清源

生态 | Apache Hudi集成Alluxio实践

∥☆過路亽.° 提交于 2020-10-23 02:29:01
原文链接: https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。这还使得应用程序能够通过一个公共接口连接到许多存储系统。Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。 对于用户应用程序和计算框架,Alluxio提供了快速存储,促进了作业之间的数据共享和局部性。当数据位于本地时,Alluxio可以以内存速度提供数据;当数据位于Alluxio时,Alluxio可以以计算集群网络的速度提供数据。第一次访问数据时,只从存储系统上读取一次数据。为了得到更好的性能,Alluxio推荐部署在计算集群上。 对于存储系统,Alluxio弥补了大数据应用与传统存储系统之间的差距,扩大了可用的数据工作负载集。当同时挂载多个数据源时,Alluxio可以作为任意数量的不同数据源的统一层。 Alluxio可以被分为三个部分:masters、workers以及clients。一个典型的设置由一个主服务器、多个备用服务器和多个worker组成。客户端用于通过Spark或MapReduce作业、Alluxio命令行等与Alluxio服务器通信。 2. 什么是Apache Hudi

QQ音乐PB级ClickHouse实时数据平台架构演进之路

旧城冷巷雨未停 提交于 2020-10-22 08:26:13
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。 文章目录 1 一、背景介绍 2 二、大数据分析的挑战 2.1 1. 时效性低 2.2 2. 易用性低 2.3 3. 流程效率低 3 三、QQ音乐大数据架构技术演进 3.1 1. ClickHouse介绍 3.2 2. ClickHouse架构系统技术攻克点 3.3 3. 基于Superset的自助数据分析可视化平台 4 四、QQ音乐与腾讯云EMR共建云端OLAP 5 结语 一、背景介绍 QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听、看、玩”的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超过3000万首歌曲的海量曲库。优质服务的背后,是每天万亿级新增音乐内容和行为数据,PB数据量级的数据计算服务。 海量的数据意味着更高标准的数据分析业务,对于离线分析的时效、实时与近实时的即席实时交互分析,提出了更高的要求。如何通过用户行为以及音乐内容标签数据,深入洞察用户需求,来优化泛音乐内容创作分享生态,为亿万用户带来更优质的音乐体验

玩转云上数据湖,解析Serverless 技术落地

折月煮酒 提交于 2020-10-21 20:11:28
导读: 本文主要介绍Serverless计算相关技术与其在华为云数据湖探索服务(后文简称DLI)中的技术落地。Serverless是DLI将计算能力服务化和产品化关键技术,与传统IAAS和PAAS技术不同,DLI运用Serverless技术向客户提供了一种高效易用易扩展的计算框架,使得客户更能聚焦业务,避免牵扯集群运维的细枝末节。本文将从以下几点解读Serverless技术: 1. serverless计算简介 2. 云计算架构演进—从IaaS到Serverless 3. Serverless计算应用场景与潜力 4. DLI Serverless 计算 serverless计算简介 图 Serverless与传统云计算比较 无服务器计算(Serverless)是一种新型的云计算范式,在业界也被称为FaaS(函数即服务),它有别于传统的IaaS(基础设施即服务)和PaaS(平台即服务)技术,旨在帮助开发者摆脱减少甚至免去底层基础架构管理上的诸多烦扰。Serverless计算服务允许客户在不构建一个复杂的基础设施的情况下开发,运行和管理应用程序。在2014年10月先由 http:// hook.io 提供给业界,接着AWS推出Lambda,2016年Google Cloud Functions,Microsoft Azure Functions对外提供服务

阿里大牛整理的阿里Java岗位从P5-P7的成长笔记【总共3283页PDF文档】

此生再无相见时 提交于 2020-10-21 14:32:57
今年的金九银十已经过去一大半了,在这其中参与过不少面试,2020都说工作不好找,这也是对开发人员的要求变向的提高了。 之前在Github上收获45K+star的Java核心神技(这参数,质量多高就不用我多说了吧)非常全面, 包含基础知识、Java集合、JVM、多线程并发、spring原理、微服务、Netty 与RPC 、Kafka、日记、设计模式、Java算法、数据库、Zookeeper、分布式缓存、数据结构等等内容 非常丰富,已经帮很多人拿下互联网一线公司的offer Java架构师成长笔记: 首先肯定是Java基础复习 SpringBoot快速上手 Web编程探索 SSM从入门到精通 戳这里免费领取,暗号:CSDN 1-3年高级工程师 微服务 并发编程进阶 戳这里免费领取,暗号:CSDN 深入Tomcat底层 JVM深度剖析 3-5年资深高级架构师 中间件&分布式 数据库 戳这里免费领取,暗号:CSDN Spark 除了这套pdf文档,我还为大家准备了一套体系化的架构师学习资料包以及BAT面试资料,供大家参考及学习, 戳这里免费领取,暗号:CSDN 已经将知识体系整理好(源码,笔记,PPT,学习视频)免费领取。 戳这里免费领取,暗号:CSDN 我已经把这些技术好文+面试题和架构视频,放在我的Java架构技术资源群里,群里会各种PDF书籍,也有资深HR可以推荐工作

Kafka基本原理详解(超详细!)

安稳与你 提交于 2020-10-20 04:52:27
目录 一、概念理解 (1)产生背景 (2)Kafka的特性 (3)Kafka场景应用 (4)Kafka一些重要设计思想 二、消息队列通信的模式 (1)点对点模式 (2)发布订阅模式 三、Kafka的架构原理 (1)基础架构与名词解释 (2)工作流程分析 (1)发送数据 (2)保存数据 (1)Partition 结构 (2)Message结构 (3)存储策略 (3)消费数据 一、概念理解 Kafka 是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。 (1)产生背景 当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战: 如何收集这些巨大的信息 如何分析它 如何及时做到如上两点 以上几个挑战形成了一个业务需求模型,即生产者生产(produce)各种信息,消费者消费(consume)(处理分析)这些信息,而在生产者与消费者之间

面向大数据与云计算调度挑战的阿里经济体核心调度系统

浪子不回头ぞ 提交于 2020-10-20 02:00:22
编者按 伏羲(Fuxi)是十年前最初创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute,分布式调度 Fuxi),当时的设计初衷是为了解决大规模分布式资源的调度问题(本质上是多目标的最优匹配问题)。 随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大, 从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度(即正文中的单机调度)等多个领域, 并在每一个细分领域致力于打造超越业界主流的差异化能力。 过去十年来,伏羲在技术能力上每年都有一定的进展和突破(如2013年的5K,15年的Sortbenchmark世界冠军,17年的超大规模离在/在离混布能力,2019年的 Yugong 发布并论文被VLDB接受等等)。本文试从面向大数据/云计算的调度挑战出发,介绍各个子领域的关键进展,并回答什么是“伏羲 2.0”。 1. 引言 过去10年,是云计算的10年,伴随云计算的爆炸式增长,大数据行业的工作方式也发生了很大的变化:从传统的自建自运维hadoop集群,变成更多的依赖云上的弹性低成本计算资源。海量大数据客户的信任和托付,对阿里大数据系统来说

廖雪峰大数据团队研发的"开车宝典"再次曝光,手慢删!

心不动则不痛 提交于 2020-10-18 15:30:43
想什么呢!是廖雪峰老师送福利! 众所周知,大数据改变了我们的生产生活,目前已被广泛应用于电商、交通、工业、金融、政务、医疗等行业,而大数据工程师也成为各行业炙手可热的岗位 。 但同样地大数据工程师技能要求也不低,不仅要熟练 Hadoop、Presto 及 Spark、Storm 等核心框架,还要会搭建系统架构,解决实际业务问题等。但不少初入大数据的人往往摸不着头脑,对 Spark、Flume、Hbase、Kafka 等框架底层源码更是一知半解,更不要说提升系统性开发能力,成为精通的高手了。 因此,今天给大家推荐一个 免费 福利—— 廖雪峰 最新研磨的 实战宝典 《 如何将大数据开发做到优秀 》 首次开放! 内容出自开课吧 vip 课程 “大数据高级开发实战班” ,为帮助大家特殊时期职场走得更加顺畅,现决定将这套价值 788元 的体系化学习宝典免费送给粉丝朋友。 如果你是刚转行大数据不久的 Java、PHP 等程序员或 入行新人 ,这套学习宝典能帮你迅速摆脱工作困扰,巩固掌握优秀工程师的必会技能: 缺乏工作经验,想短时期内接触学习大数据开发项目; 接触不到核心技术,不懂底层源码,不会搭建系统架构,提升太难; 业务逻辑欠缺,想丰富实战经验,进大厂冲击高薪。 一、高薪大数据工程师必备——实战项目经验 本部分选取 当下各企业应用最广的 项目 ,基于 大厂脱敏数据 ,以 Spark

不用标榜“高大上”,成功的CDMO公司重要的是按时交付、保质保量丨专访苏州博腾生物

陌路散爱 提交于 2020-10-17 13:48:43
  基因治疗这一火热又相对年轻的赛道在国内外呈现出方兴未艾的发展势能,而对国内大多数基因治疗 CDMO 公司而言,属于自己的故事才刚刚开始上演。如果企业是在治疗战场上冲锋陷阵的“士兵”,那么 CDMO 就是整个军队的“后勤部”。   2012 年,荷兰 UniQure 公司的基因制剂 Glybera 由欧盟审批通过,该药便是采用腺相关病毒(AAV)作为载体,主要治疗脂蛋白脂肪酶缺乏引起的严重肌肉疾病。那时,基因疗法市场掀起了一场爆发式的投资热潮,基因治疗 CDMO 在海外的市场刚刚露出复苏萌芽,但中国的相关企业还未展开布局。而如今,我们能够看到越来越多的本土初创基因治疗 CDMO 公司走进大众的视野。   苏州博腾生物制药有限公司(以下简称“博腾生物”)就是其中的一员,作为小分子头部 CDMO 公司重庆博腾制药科技股份有限公司子公司,博腾生物聚焦基因与细胞治疗 CDMO 领域。本次生辉与博腾生物 CTO 孔令洁、细胞治疗业务副总裁隋礼丽进行了深度访谈,二人对生辉表达了自己对基因与细胞治疗 CDMO 行业的理解和看法。      图丨孔令洁(左)和隋礼丽(来源:受访者提供)    中国的基因、细胞治疗有潜力出现“first in class”    生辉:为什么会选择从事基因治疗的 CDMO?    孔令洁: 我大概在 90 年代离开中国去往美国,在美国从事博士后研究后进了工业界

在 ai-bigdata SIG 的贼船上痛并快乐着

拟墨画扇 提交于 2020-10-16 12:40:57
记得在本科毕业的时候,人工智能和大数据才刚刚火起来。 我在大学的时候选修过人工智能,但半年的课程,又是选修,你懂的~~最后只接触了一些分类、预测算法的皮毛,也没有项目实践。 所以毕业的时候觉得人工智能、大数据这俩东西很神秘,猜不透。 工作后我依然保持浓厚的兴趣,经常自己看一些相关书籍关注一些技术前沿,但毕竟每天要完成工作,并且没有人带领,也没有人交流,两年下来感觉还是很虚,我决定必须改变这种现状。 非常偶然的机会我发现 openEuler 上有个 ai/bigdata 的特别兴趣组(SIG),说起来真的很巧合,当时不知道从哪看到 openEuler 的网站。 浏览时看到了邮件列表,点击后填入邮箱然后回复了确认,就没有在意了。 后来整理邮件时发现了很多大数据和人工智能方面的讨论,比如 Spark、TensorFlow 的安装,hadoop 单机部署和集群部署方式,大数据和人工智能的发展趋势分享,hadoop 在 aarch64(那时候还不知道是啥)上的支持情况,Flink 在 openEuler 上的支持情况(当时以为所有的 OS 都一样)等。 这些我有时间自己阅读下,觉得收获还挺多,尤其是一些安装、使用问题正好是我在部署时也遇到了的。除了这些,也有例会链接,我偶尔上去听一下,看看这些领域专家们都在干什么。 自己虽然有兴趣,一直关注相关资讯,但毕竟纸上得来终觉浅