Apache Spark

打工人,今年双十一你刷啥?

落花浮王杯 提交于 2020-11-11 19:49:02
预付款都付完了吧?又囤啥让你进退两难、买也不是、不买又已经预付了的好东西了(捂脸),唉…古有:往者不可谏,来者犹可追,今有:打工赚不了几个钱,但多打几份工可以让你没时间花钱(人类的智慧总是那么精简到位),要我说,书中自有颜如玉,书中自有(你够了!),这不,正好我带了些笔记来,书嘛,要从薄学到厚,再从厚学到(你走开!) 学习的第一步: 上帝说, 要有学习材料 。 没错今天我们要学习微软的新产品黑科技,决心做高端的打工人(傲娇奋斗脸) 学习的第二步:上帝说, 要带着问题学习 。 好的 ,fine ????那微软秋季课堂都讲啥了微软智能云矩阵是啥我的女神潘正磊来了吗主讲人是谁呀微软推出啥新产品新功能了Dynamics365是啥GitHub有啥新功能Azure Arc商用了吗有什么客户实践呀Powerplatform不会写代码的人能用吗数字化转型微软都做了什么新动作呀(好停????排好队一个一个问... ) 那么 Q1 :微软智能云矩阵是啥? 话不多说,上图⬇️ 微软智能云矩阵是由Azure、GitHub、Power Platform、LinkedIn、Microsoft 365和Dynamics 365共同组成。在Azure底座还可以看到安全、管理、合规的字样。微软中国首席技术官韦青老师在课堂上解释到: 网络安全是网络时代所有信息稳定传输交互的核心问题

Datawhale 暑期组队学习计划

柔情痞子 提交于 2020-11-08 15:37:01
Datawhale暑期组队学习计划 马上就要开始啦 这次共组织15个组队学习 涵盖了AI领域从理论知识到动手实践的内容 按照下面给出的 最完备学习路线 分类 难度系数分为 低 、 中 、 高 三档 可以按照需要参加 学习路线 基础知识 1 Python基础 课程简介 **课程设计:**马晶敏,叶梁 **组队学习说明:**学习python基础知识,针对python小白的学习之路 **任务路线:**基础知识 → 函数 → 第三方模块 → 类和对象 → 基础爬虫 **组队学习周期:**10天 **定位人群:**python小白 难度系数低 **每个任务完成大概所需时间:**2~4h/天,根据个人学习接受能力强弱有所浮动 任务安排: Task1:环境搭建 + python初体验 + python基础讲解 + python数值基本知识 (2天) Task2:列表 + 元组 + string字符串 + 字符串格式化问题 (2天) Task3:数组 + 集合 + 判断语句 + 三目表达式 + 循环语句 (2天) Task4:数组 + 集合 + 判断语句 + 三目表达式 + 循环语句 (2天) Task5:函数 + file + os模块 + datetime模块 (2天) 2 LeetCode 课程简介 **课程设计:**老表、于鸿飞、杨皓博 **组队学习说明:**Leetcode刷题组队学习

开发者常用的顶级社区

自古美人都是妖i 提交于 2020-11-08 13:28:31
Google+社区 https://plus.google.com/communities/117373370876568660834 SitePoint https://www.sitepoint.com/html-css/ Hacker News (small talks) https://news.ycombinator.com/news DZone (newest Java techs articles&demos) Excellent!! www.dzone.com/links/index.html Leecode (data structure & database peoblems) Excellent!! https://leetcode.com MDN教程(html javascript css) Excellent!! https://developer.mozilla.org/zh-CN/docs/Web/Tutorials https://css-tricks.com/absolute-relative-fixed-positioining-how-do-they-differ/ (定位) http://sporto.github.io/blog/2012/12/09/callbacks-listeners-promises/ (Asychronous JS

边缘计算的云边协同

我们两清 提交于 2020-11-07 12:42:15
众所周知,边缘计算是将基础设施资源进行分布式部署再统一管理的。资源较为集中的称为“中心云”,资源量较少的部署点称为“边缘云”,并在边缘计算云平台中存在少数的中心云和多数的边缘云,因此如何进行平台的资源调度变成十分重要。 而云边协同是边缘计算中非常重要的特性,那么为何云边协同那么重要? 边缘节点由于部署在边缘侧,通常只有数台服务器组成的虚拟化资源池,但是终端的各类设备是通过边缘侧接入边缘平台的,因此通常来说,边缘侧的资源短缺的压力比较大。在很多如医疗、工业、车联网等场景中,许多终端、传感器通过网络接入到边缘平台中。给边缘云提出了更高的要求。 在边缘云中,存在大量的多种边缘服务器和边缘终端,需要通过边缘云进行统一管理,并实现对边缘应用的支持。 中心云的存在是为了管理多个边缘云和为边缘云提供充足的虚拟化资源。并且由于中心云是由大量的服务器虚拟化组成的,可以提供持久化存储和为需要大计算量的应用提供资源,如大数据应用Hadoop、Spark,人工智能应用Tenseflow等。中心云通过管理网络来控制边缘云,并提供安全的连接,而在边缘云的网络发生中断时,边缘云可以通过独立的资源管理系统进行“自治管理”。在中心云上则会显示该边缘云“中断连接”,并尝试重连。 中心云与边缘云的关系如下图,中心云管理多个边缘云平台,工业PC和大量的网关,而边缘云则通过边缘网关接入各种设备、传感器等。

码农死磕这份Java高级开发文档,成功‘挤‘进一线大厂,我把它给要来了!

最后都变了- 提交于 2020-11-07 12:35:38
前言 拿到一份offer比什么都重要,所以笔者专门花了近一个月的时间整理好了一份专门为Java面试而生的总结,注意的是笔者仅仅对面试技术方面的题目进行的总结,至于如何去和面试官去聊,怎么聊,聊得嗨,这里笔者就不谈了,因为这方面并不是笔者擅长的。 接下来我就把我这些年“圈子里”的一些资源分享出来 ,需要的看文末我免费分享给你。 Java 知识梳理 熟练掌握java是很关键的,大公司不仅仅要求你会使用几个api,更多的是要你熟悉源码实现原理,甚至要你知道有哪些不足,怎么改进,还有一些java有关的一些算法,设计模式等等。 JAVA基础 JAVA异常分类及处理 JAVA反射 JAVA注解 JAVA内部类 JAVA泛型 JAVA序列化(创建可复用的Java对象) JAVA多线程并发 JAVA并发知识库 JAVA线程实现/创建方式 4种线程池 线程生命周期状态) 终止线程4种方式 sleep与wait区别 start与run区别 JAVA后台线程 JAVA锁 线程基本方法 线程上下文切换 同步锁与死锁 线程池原理 JAVA阻塞队列原理 CyclicBarrier、CountDownLatch、Semaphore的用法 volatile关键字的作用(变量可见性、禁止重排序) 如何在两个线程之间共享数据 ThreadLocal作用(线程本地存储)

Apache Hudi和Presto的前世今生

最后都变了- 提交于 2020-11-04 04:19:14
一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。 1. 概述 Apache Hudi 是一个快速迭代的数据湖存储系统,可以帮助企业构建和管理PB级数据湖,Hudi通过引入 upserts 、 deletes 和增量查询等原语将流式能力带入了批处理。这些特性使得统一服务层可提供更快、更新鲜的数据。Hudi表可存储在Hadoop兼容的分布式文件系统或者云上对象存储中,并且很好的集成了 Presto, Apache Hive, Apache Spark 和Apache Impala。Hudi开创了一种新的模型(数据组织形式),该模型将文件写入到一个更受管理的存储层,该存储层可以与主流查询引擎进行互操作,同时在项目演变方面有了一些有趣的经验。 本博客讨论Presto和Hudi集成的演变,同时讨论Presto-Hudi查询即将到来的文件Listing和查询计划优化。 2. Apache Hudi Apache Hudi(简称Hudi)提供在DFS上存储超大规模数据集,同时使得流式处理如果批处理一样,该实现主要是通过如下两个原语实现。 Update/Delete记录 : Hudi支持更新/删除记录,使用文件/记录级别索引

记一次 Kafka Producer 性能调优实战

耗尽温柔 提交于 2020-11-03 14:31:05
记一次 Kafka Producer 性能调优实战 https://objcoding.com/2020/09/18/kafka-producer-performance-optimization/ 最近,遇到某个集群的生产端发送延迟特别高,而且吞吐量上不去,检查集群负载却很低,且集群机器配置非常好,网络带宽也很大,于是使用 Kafka 压测脚本进行了压测。 昨天凌晨,在生产环境进行实战调优,经过不断参数改动,现将生产者相关参数设置为以下配置: linger.ms=50 batch.size=524288 compression.type=lz4 acks=1(用户要求消息至少要发送到分区 leader) max.request.size=5242880 buffer.memory=268435456 在生产环境的一台服务器上,使用以上参数对集群进行生产发送性能压测: 从上图可以看到,使用平均 4k 大小的消息体对集群进行压测, 单个 Producer 平均吞吐量达到 2000MB/s,50w/s+ ! 作为对比,我还是使用同一台服务器,将调优参数去掉,再压一遍: 可以看到,最高的吞吐量也不过 500M/s,最低已经来到 2M/s 了。 虽然说实际客户端环境比压测环境复杂很多,但是使用压测工具已经能够证明,该集群的负载目前现在还远远没有达到瓶颈,且生产端还有待优化。

从面试官的角度谈谈大数据面试

喜夏-厌秋 提交于 2020-11-03 07:49:52
关于传授面试经验的文章太多了,眼花缭乱,我这里就不谈了,点进来想获取几吨面试学习资料的同学,抱歉让你失望了。(我是真的找不到那么多资料...)。所以,今天我们只聊面试官。 作为一只老鸟,我的面试经验还算丰富,无论是作为面试者还是面试官。其实这篇对于面试者来说也是有意义的,毕竟知己知彼,百战不殆,知道对方会从哪些方面问问题,从哪些方面考核,才能更好地提前做好准备。 首先,我觉得面试官有责任保证面试过程是一次高效的交流。你要获取到你需要的信息,对面试者做全方位的考量;面试者也要获取到他需要的信息,面试官(若面试成功很大可能是自己的上级)的水平,公司技术要求水平,自己是否适合这家公司,公司是否需要自己。 面试是一个双向选择的过程,面试官在选人,面试者在选公司。而面试者了解这家公司最直接的途径就是通过面试官。 说说面试官 我先说几个面试官常会有的问题。 问题问得太跳跃,想到什么问什么 抓住一个面试官自己很熟的知识点或者方向往死里问 ,完全不会根据面试者的回答情况做调整(我是来面试的,不是来看你炫技的) 只问技术,不问业务 技术问题问得太表面 当然我也见过不错的面试官,问题问得很有水平。那有水平的面试官会给人什么样的感觉? 答得很舒服,不管结果怎么样,总之能展现出自己应有的水平 面试过程是有收获的,没有白来,知道了自己的欠缺 如果面试者是个到处抢着要的高手

连载:阿里巴巴大数据实践—数据开发平台

旧城冷巷雨未停 提交于 2020-11-02 17:03:33
阿里数据人都在用的内部技术经验 关注 数智化转型俱乐部 ,数智化不迷路 摘要 介绍 MaxCompute 和阿里巴巴内部基于 MaxCompute 的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍。 数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。面对海量的数据和复杂的计算,阿里巴巴的数据计算层包括两大体系:数据存储及计算平台(离线计算平台MaxCompute和实时计算平台StreamCompute)、数据整合及管理体系(OneData)。 阿里数据研发岗位的工作大致可以概括为:了解需求→模型设计→ETL开发→测试→发布上线→日常运维→任务下线。与传统的数据仓库开发(ETL)相比,阿里数据研发有如下几个特点: 业务变更频繁 — —业务发展非常快,业务需求多且变更频繁; 需 要快速 交付 — —业务驱动,需要快速给出结果; 频 繁发布上线 — —迭代周期以天为单位,每天需要发布数次; 运 维任务多 — —在集团公共层平均每个开发人员负责上百多 个任务; 系统环境复杂 — —阿里平台系统多为自研,且为了保证业务的发展,平台系统的迭代速度较快,平台的稳定性压力较大。 通过统一的计算平台(MaxCompute)、统一的开发平台、统一的数据模型规范和统一的数据研发规范,可以在一定程度上解决数据研发的痛点