Apache Spark

2020团队OKR更新

一曲冷凌霜 提交于 2020-07-27 08:26:26
前言 本来已经实施的OKR计划因为突如其来的疫情打乱了节奏,现在团队已经没人能够记得自己的OKR是什么了。 目前国内疫情早就趋于平稳,是时候找回节奏了。在这里更新团队OKR 强化自组织,持续优化和开放透明的团队文化 第三四季度彻底执行OKR 覆盖全员 月度评审 季度复盘 实现五分钟启动并演示 团队内任意成员在研项目可在5分钟内启动并演示本周期功能 9月前新人进入后10分钟内完成开发环境的生成 扩大服务器集群规模,至少保证12个开发节点的规模 技术进阶集团内第一梯队,公司内领先一代 10月前实现在研项目镜像化比例高于70% UMP除4G平台服务外的全镜像化 ISS全镜像化 实现JGDQ全镜像化 年底前云原生技术实现实用化进阶 自建服务器集群扩大到10台 九月前自建的Paas集群投入项目实际使用 九月前公有云的服务使用 年底前团队中至少2人掌握低代码平台,具备搭建实际软件的能力 低/无代码平台的调研 demo项目的开发和演示 成为ToB领域第一梯队的解决方案团队 年底前具备大数据领域平台开发能力 9月前具备基础的PB级大数据管理平台开发能力,hadoop+hbase 12月前具备大数据处理平台开发能力,MR->Spark->flink 完成团队业绩指标 100%按照预期完成 纯软产值>80万/人 利润>40万/人 具备排除技术型宕机问题或单点故障的能力,具备搭建99.9

从做深基础,曝光正在“变硬”的阿里云

巧了我就是萌 提交于 2020-07-26 23:37:47
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 某个技术对于一个企业、一个行业乃至一个国家的价值,此前的数次工业革命中,已经从电力、通讯等身上得到了充分的自证和他证。 那么在当下,哪些技术可以拥有同样的雷霆之力,可以与千行万业结合的云计算,自然应该拥有姓名。 2008年的一场行业讨论中,只有马云坚定地站在“云计算”这边,认为“如果不做云计算,阿里将会死掉”。时至今日,阿里云处于智能产业革命中心,在2019年Gartner全球数据库魔力象限评选结果中,阿里云成功进入“挑战者”象限,连续两年作为唯一的中国企业入选这一权威评选。 结果就是最好的例证。不过前尘已成往事,阿里云此刻最应该回答的时代考题,应该是接下来要将云计算带向何方。 在刚刚举办的2020年阿里云峰会上,阿里云总裁张建锋就解答了这个疑惑——阿里云将继续做深云的底座,在数据库、数据中心、交换机、芯片等领域加大自研力度,基于云的特点来构建整套基础体系。 阿里云的决心有多大?从三年再投超过2000亿资金,再招5000顶级科技人才的押注规模,可见一斑。 阿里云这艘巨舰,发出了向下一个海域启程的轰隆声,但每一个站在“云”下的芸芸众生,又该如何理解这一时代性的宏大命题?“做深基础”这简单的四个字背后,到底隐藏着怎样的未来藏宝图。 站在时代、国运、技术的变革交汇口

黄仁勋烤箱出炉性能最强GPU,7nm助英伟达重登巅峰

别等时光非礼了梦想. 提交于 2020-07-26 22:18:55
      在众人的翘首以盼下,英伟达 GTC 大会终于在五月中旬姗姗来迟。只不过,这次没有科技感十足的现场直播,只有黄老板家朴实无华的厨房。 直播开始前,黄老板特地放出了一段预热视频,DTX A100 从烤箱中「新鲜出炉」,吊足了粉丝的胃口。去年的 GTC 大会英伟达表现平平,除了自动驾驶芯片外并没有发布其他硬件产品,加之 2020 财年市场表现不佳,不少媒体猜测,「英伟达走下坡路了」。 GTC 大会 2020 可谓是向所有人证实了,「不管是硬件软件,英伟达都是第一」。    撰文 | 徐丹    一 史上最大 7 纳米制程芯片   发布会上最重磅的产品就是新一代数据中心 GPU——NVIDIA A100 GPU,这款 GPU 以最新英伟达 A100 芯片组成,采用了台积电 7nm 工艺,被认为是迄今 GPU 算力的最大一步提升。      在 A100 之前,英伟达的上一代 GPU 是基于 Volta 架构芯片 Tesla V100,V100 用 300W 功率提供了 7.8TFLOPS 的推断算力,有 210 亿个晶体管,但 A100 的算力直接是前者的 20 倍。   这款 GPU 有许多亮点,首先是第三代安培架构。安培是图灵(Turing)之后的第二代追光架构,构延续了整数、浮点、张量、光追分离的特点,只不过每组 SM 的 FP32 单元数量翻倍(INT32 数量不变)

【G1调优】G1垃圾回收器调优-to-space exhausted Evacuation Failure-参考资料

百般思念 提交于 2020-07-26 21:51:10
出现这种问题的时候建议是: 1、调大堆内存,根本方法 2、调小XX:InitiatingHeapOccupancyPercent、调大XX:ConcGCThread 3、打印XX:+PrintAdaptiveSizePolicy,youngGC默认没什么线索,这个打印出来可以看到更多线索 G1回收器没有深入了解过。。。。。 参考资料 https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=Parallel%20Time%3A%202699.8%20ms%2C%20GC%20Workers&fenlei=256&rsv_pq=ac1e26e3000103a9&rsv_t=c96dpP%2FiuU1jER59XrDCAoECjj4JaehrkppjOd6FysNclU1hTo8ljbzIk20&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_n=2&rsv_sug3=1&rsv_sug2=0&rsv_btype=i&inputT=1616&rsv_sug4=1616 https://blog.csdn.net/vfgbv/article/details/51720344 https://blog.csdn.net/lijingyao8206/article/details

Flink简介

荒凉一梦 提交于 2020-07-26 08:04:08
参考文章: Flink编程 1. 认知flink Flink是一个框架和分布式处理引擎 ,用于对无界和有界数据流进行有状态计算 2. 主要特点 2.1 事件驱动型(Event-driven) 事件驱动型应用是 一类具有状态的应用,从一个或多个事件流提取数据,根据到来的事件触发计算,状态更新或其他外部动作, 典型的是kafka类的消息队列, SparkStreaming微批次: 事件驱动型: 2.2 观象 =>流&批 批处理 有界、持久、大量,非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。 流处理 无界、实时, 无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。 spark中一切是批处理,离线数据是一个大批次,而实时数据是由一个一个无限的小批次组成的。 flink中一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。 2.3 有界&无界 无界数据流 无界数据流有一个开始但是没有结束,它们不会在生成时终止并提供数据,必须连续处理无界流,也就是说必须在获取后立即处理event。对于无界数据流我们无法等待所有数据都到达,因为输入是无界的,并且在任何时间点都不会完成。处理无界数据通常要求以特定顺序(例如事件发生的顺序)获取event,以便能够推断结果完整性。 有界数据流

spark-webUI添加权限认证

我怕爱的太早我们不能终老 提交于 2020-07-25 14:47:56
Spark版本:2.4.0 文章目录 1、编写Filter代码 2、把Filter类打成jar包,上传到spark根目录下的jars目录 3、修改master节点spark-defaults.conf,添加以下内容 4、重启 5、访问 1、编写Filter代码 <!-- https://mvnrepository.com/artifact/javax.servlet/javax.servlet-api --> <dependency> <groupId>javax.servlet</groupId> <artifactId>javax.servlet-api</artifactId> <version>4.0.1</version> <scope>provided</scope> </dependency> ```java package spark ; import org.apache.commons.codec.binary.Base64 ; import org.apache.commons.lang.StringUtils ; import org.slf4j.Logger ; import org.slf4j.LoggerFactory ; import javax.servlet.* ; import javax.servlet.http

Python大数据分析(二):大数据技术基础

此生再无相见时 提交于 2020-07-25 08:18:23
文章目录 (一)Linux系统和大数据 (二)Hadoop (1)Hadoop包含哪些模块? (2)Hadoop的生态成员 (3)哪些人在使用Hadoop? (三)Spark (1)Scala (2)RDD (3)主件 (四)云计算 (1)虚拟化技术 (2)云计算特点 (3)云计算应用 (五)Python数据分析工具 (1)Pandas (2)matplotlib (3)scikit-learn 附:参考资料 (一)Linux系统和大数据 大数据分析需要可扩展,易用,灵活的计算分析,大量的数据需要通过一个硬件的集群制造一个计算资源之外的可扩展优势 Linux的低门槛使得集群架设可以以低成本完成,这使得Linux成为这些年在处理数据上显得更有更好的表现和更高效 Linux容器运行你去打包和隔离应用使得你可以在各种环境(开发,测试,生产…)下移动数据,对于完成大数据的数据处理工作,容器是一个快速简单的方式 Linux系统在这方面的优势:用户社区庞大,开源免费,可跨平台,多用户多任务,高能高效,安全稳定,硬件计算快速,网络功能完善 (二)Hadoop Apache Hadoop 是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。 Hadoop

大数据容器化,头部玩家尝到了甜头?

强颜欢笑 提交于 2020-07-25 07:59:08
大数据的需求热度,从来都是这个时代的浪尖。然而由于大数据系统的复杂性,一度导致业界大数据已死的各种声音不断。尤其是当MapR被HPE收购,Cloudera公司股票持续跌成狗,使得这种声音进一步放大。其实,大数据的需求一直在,只是传统的大数据实现系统需要考虑重新构建。 而容器依靠其自身的标准化,一次构建,随处运行的能力,使得非常适合大数据系统的构建和管理。容器技术当前正是那只火遍全球的当红辣子鸡。 1 华为云BigData Pro大数据解决方案荣获行业年度金奖 2019年12月3日晚,2019年度中国数据与存储峰会年度颁奖典礼上,华为云BigData Pro大数据解决方案荣获“2019年度大数据产品金奖”,再一次展示了华为云在大数据领域的不凡实力。中国数据与存储峰会(DSS)是国内顶级的数据与存储领域技术盛会,其颁发的奖项颇具含金量,在十多年间见证了国内数据存储技术和行业的迅猛发展。此次评选范围涉及私有云大数据,公有云大数据,大数据软件,大数据解决方案等多个领域和维度。本次华为云BigData Pro能一举拿下该金奖,也是实至名归。 2 大数据容器化,大势所趋 目前已经有大量的大数据系统原生支持on Kubernetes。例如Spark官方版本,从2.3开始,就可以无需任何修改直接跑在K8s上。并且,将“更好的在k8s上运行”作为后续版本的重要特性方向

程序员每日一乐:html动态烟花设计 3D

随声附和 提交于 2020-07-24 17:36:01
经过一天的的工作或者学习是否感到枯燥乏味?现在的你是否想找些乐子?下面我将教大家制作简单易做的3D烟花动态网页,告别无聊与乏味。。。。。 第一步:首先新建一个文本文档。 第二步:将以下代码复制到该文本文档中,保存。 <!doctype html> <html> <head> <meta charset="utf-8"> <title>3D烟花</title> <style> html,body{ margin:0px; width:100%; height:100%; overflow:hidden; background:#000; } #canvas{ width:100%; height:100%; } </style> </head> <body> <canvas id="canvas"></canvas><script> function initVars(){ pi=Math.PI; ctx=canvas.getContext("2d"); canvas.width=canvas.clientWidth; canvas.height=canvas.clientHeight; cx=canvas.width/2; cy=canvas.height/2; playerZ=-25; playerX=playerY=playerVX=playerVY=playerVZ