Apache Spark

今15年创业,享受改变的过程

一世执手 提交于 2020-08-04 10:01:15
今15年创业,享受改变的过程(新书已上架开卖) 我的新书《 编程之法 》已经上架京东、当当、亚马逊等各大网店,均已有现货销售。 1 年初开始创业 挺有意思。自去年11月写完LDA主题模型后,至今竟悄无声息的已过去大半年。其中,最主要的原因就是:今年年初正式开始了创业。 2 发布在线教育网站 很快,1月27日,我们上线了自己的在线教育网站:七月在线 http://www.julyedu.com/ 。目前专注5类 在线 课程:面试、算法、机器学习、深度学习、数据挖掘,由程、曹、周、寒等博士/BAT一线工程师授课。周末在线直播、平时集中答疑、视频反复观看。且团队最为重视内容质量,倾尽全力,不断优化。 3月31日,我们的网站 julyedu.com 上线视频功能,毫无疑问,同样只做精品视频。 更新 :截止到2018年6月4日公司三周年之际,讲师团队已超过60人,均由国内外顶级高校博士 + BAT一线技术经理,开设的课程包括:数学/算法/ml/dl/dm/spark/nlp/cv等等。一直在不断强大讲师团队、不断提高课程质量、不断服务更多人、帮助更多人。 网站截图如下: https://www.julyedu.com/ 3 七月在线科技 今年6月11日,首次对外公布公司的名字:七月在线科技,在微博上说的比较含蓄,在QQ空间则说得直截了当:我们就是要改变世界。 与此同时,6月份~7月初

2020 最受 IT 公司欢迎的 30 款开源软件

流过昼夜 提交于 2020-07-29 10:29:00
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 来源: http://www.360doc.com/content/20/0613/14/49290572_918245894.shtml 所谓开源,就是把软件的源代码开放出来,大家都能看到源代码,大家可以一起研究源代码并对软件的进行优化和改进。越来越多的IT公司对开源持开放态度,一方面有了优秀的开源项目,就不用再重复造轮子,可以直接拿来使用;另一方面,自己公司有优秀的自研项目,为了发展壮大可以选择将项目开源,让更多的开发者参与进来,一起努力提升软件的功能!近些年来,国内很多大型IT公司也逐渐推出了一些高质量的开源项目,比如华为开源了鸿蒙系统、腾讯开源了自研的顶级数据库TBase、 阿里开源了自研的科学计算引擎Mars等。 下面,我们先大概的回顾一下红帽公司发布的企业开源现状的调查报告,然后简单的介绍一下最受IT公司青睐的一些开源项目。这些主要是面向企业的应用软件项目,涵盖Web服务器、大数据、云计算、云存储、操作系统、数据库等几大类别。 红帽发布2019年企业开源调查报告 开源技术已被广泛应用于企业中,这一点毋庸置疑。像谷歌和微软这样的科技巨头也承认开源的力量——谷歌云最近与 MongoDB、redis Labs、Neo4j

Delta Lake 如何帮助云用户解决数据实时入库问题

梦想与她 提交于 2020-07-29 10:14:56
嘉宾简介:辛现银,花名辛庸,阿里巴巴计算平台事业部 EMR 技术专家,Apache Hadoop,Apache Spark contributor,对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容,今天为大家介绍Delta Lake 如何帮助云用户解决数据实时入库的问题。 直播回放: https://developer.aliyun.com/live/2894 以下是视频内容精华整理。 一、CDC简介 CDC是Change Data Capture的缩写,也就是改变数据捕获。比如在最开始的时候我们用工具将业务数据导入数据仓库、数据湖当中,之后导入数据的时候我们希望反映数据的动态变化,进行增量导入,并且能够尽快的捕获这些变化数据,以便更快地进行后 来源: oschina 链接: https://my.oschina.net/u/4274636/blog/4334809

Spark无法读取hive 3.x的表数据

牧云@^-^@ 提交于 2020-07-29 03:53:26
通过Ambari2.7.3安装HDP3.1.0成功之后,通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据,准确来说是内表的数据。 原因 hive 3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark目前还不支持hive的ACID功能,因此无法读取ACID表的数据. 请看:https://issues.apache.org/jira/browse/SPARK-15348 解决办法 修改以下参数让新建的表默认不是acid表。 hive.strict.managed.tables= false hive.create. as .insert.only= false metastore.create. as .acid= false 来源: oschina 链接: https://my.oschina.net/u/4346988/blog/4399186

Spark TempView和GlobalTempView的区别

会有一股神秘感。 提交于 2020-07-29 03:45:08
Spark TempView和GlobalTempView的区别 TempView和GlobalTempView在spark的Dataframe中经常使用,两者的区别和应用场景有什么不同。 我们以下面的例子比较下两者的不同。 from pyspark.sql import SparkSession import numpy as np import pandas as pd spark = SparkSession.builder.getOrCreate() d = np.random.randint(1,100, 5*5).reshape(5,-1) data = pd.DataFrame(d, columns=list('abcde')) df = spark.createDataFrame(data) df.show() +---+---+---+---+---+ | a| b| c| d| e| +---+---+---+---+---+ | 17| 30| 61| 61| 33| | 32| 23| 24| 7| 7| | 47| 6| 4| 95| 34| | 50| 69| 83| 21| 46| | 52| 12| 83| 49| 85| +---+---+---+---+---+ 从tempview中取数据 temp = df.createTempView(

阿里云机器学习PAI DSW 2.0 & Alink商业版重磅发布

最后都变了- 提交于 2020-07-29 02:52:05
DSW 2.0:面向AI研发的集成开发平台 DSW(Data Science Workshop)是阿里巴巴PAI团队根据多年的AI算法和产品研发经验积累,围绕提高AI算法研发效率,降低研发成本而推出的一款适用于各类AI开发者的云端机器学习集成开发环境。DSW2.0是借助阿里云ECS,Docker和Kubernetes等云原生技术,能够在几分钟内帮用户完成环境搭建,相对DSW1.0开放更高的开发权限,满足各个层面客户的使用需求。 云原生架构 DSW借助阿里云ECS,Docker和Kubernetes等云原生技术,能够在几分钟内帮用户完成环境搭建。用户可以根据算法需要和成本考虑,选择阿里云ECS提供的包括CPU和异构计算GPU在内的所有资源规格。 满足不同层次开发习惯 结合交互式编程和命令行输入,DSW提供了三种编程入口: WebIde适用于工程化要求比较高的项目;JupyterLab适用于快速POC试验;Terminal入口可用于快速执行Shell命令,运行程序和简单的编辑等。 预装丰富插件 DSW还开发和预装了各种JupyterLab和WebIDE插件,比如广受深度学习开发者喜爱的可视化工具Tensorboard,用户在DSW内通过Launcher,Commands打开,甚至还可以使用%tensorboard魔法命令直接在Notebook中开启等多种方式使用Tensorboard

Kylin的工作原理

会有一股神秘感。 提交于 2020-07-29 01:47:02
Apache Kylin 的工作原理本质上是 MOLAP (多维立方体分析) 。 维度和度量 维度就是观察数据的角度 ,例如: 电商的销售数据,可以从时间的维度来观察,也可以细化从时间和地区的维度来观察 统计时,可以把维度值相同的记录聚合在一起,然后应用聚合函数做累加、平均、去重计数等聚合计算 度量就是被聚合的统计值,也是聚合运算的结果 。 时间(维度) 销售额(度量) 2019 1Q 1.7M 2019 2Q 2.1M 2019 3Q 1.6M 2019 4Q 1.8M 时间(维度) 地区(维度) 销售额(度量) 2019 1Q 中国 1.0M 2019 1Q 北美 0.7M 2019 2Q 中国 1.5M 2019 2Q 北美 0.6M 2019 3Q 中国 0.9M 2019 3Q 北美 0.7M 2019 4Q 中国 0.9M 2019 4Q 北美 0.9M Cube 和 Cuboid 一个数据表或数据模型上的字段就它们要么是维度,要么是度量(可以被聚合) 给定一个数据模型,可以对其上的所有维度进行组合。对于 N 个维度来说,组合的所有可能性共有 2 的 N 次方种 对于每一种维度的组合 ,将度量做聚合运算,然后将运算的结果保存为一个物化视图,称为 Cuboid (立方形) 所有维度组合的 Cuboid 作为一个整体,被称为 Cube (立方体) 。一个 Cube

Apache Kylin 命令注入漏洞 CVE-2020-1956 POC 分析

若如初见. 提交于 2020-07-28 20:38:24
作者:香依香偎 原文链接: 闻道解惑(wendao_jiehuo) 本文为作者投稿,Seebug Paper 期待你的分享,凡经采用即有礼品相送! 投稿邮箱:paper@seebug.org CVE-2020-1956 2020年5月22日, CNVD 通报了 Apache Kylin 存在命令注入漏洞 CVE-2020-1956 ,地址在 http://www.cnnvd.org.cn/web/xxk/ldxqById.tag?CNNVD=CNNVD-202005-1133 。 Apache Kylin 是美国 Apache 软件基金会的一款开源的分布式分析型数据仓库。该产品主要提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析( OLAP )等功能。 Apache Kylin 中的静态 API 存在安全漏洞。攻击者可借助特制输入利用该漏洞在系统上执行任意OS命令。以下产品及版本受到影响: Apache Kylin 2.3.0版本至2.3.2版本,2.4.0版本至2.4.1版本,2.5.0版本至2.5.2版本,2.6.0版本至2.6.5版本,3.0.0-alpha版本,3.0.0-alpha2版本,3.0.0-beta版本,3.0.0版本,3.0.1版本。 下面就来分析一下这个漏洞。 一、搭建环境 Kylin 的环境并不好搭建,包括 Hadoop、Hbase

基于DolphinScheduler提交spark yarn-cluster与yarn-client模式的致命区别

我的梦境 提交于 2020-07-28 20:14:40
一、组件版本 二、提交方式 三、运行原理 四、分析过程 五、致命区别 六、总结 一、组件版本 调度系统:DolphinScheduler1.2.1 spark版本:2.3.2 二、提交方式 spark在submit脚本里提交job的时候,经常会有这样的警告 Warning: Master yarn-cluster is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead. 这是因为你用了yarn-cluster的方式: spark-submit \ --master yarn-cluster \ --executor-cores 2 \ --num-executors 3 \ --executor-memory 4g \ --driver-memory 1g \ test_spark.py 其实yarn-cluster与yarn-client分为两部分,分别对应spark内部的参数 master-deployMode ,不论你指定yarn-cluster还是yarn-client,master的值在源码里面都强制置为了 YARN ,在 org.apache.spark.deploy.SparkSubmit 类中源代码如下: val clusterManager : Int

腾讯T8花15天将SpringBoot细分为32部分:58实例+2项目+源码

 ̄綄美尐妖づ 提交于 2020-07-28 20:07:25
前言 如今, Springboot的诞生,让我们再也不用被Spring的繁琐配置所束缚。 Spring Boot 是当前后端开发的极佳框架。在如今纷繁的技术中尤为突出。它整合了 Spark、 ElasticsearchRabbitMQ、Redis等,实现了数据挖掘、自动预测趋势、关联分析、聚类 、概念描述、偏差检测等。 Spring Boot的配置、使用、监控、部署都很简单,它拥有完善的生态。后期如果因为项目流量太大需要切换到微服务Spring Cloud (基于Spring Boot )也会极为顺利。可以预想,未来会有越来越多的公司采用Spring Boot,更会有越来越多的开发者关注和使用Spring Boot。 SpringBoot实战派 pdf主要内容和创新: 第1章进入Spring Boot世界 第2章准备开发环境 第3章使用开发工具 基础篇 第4章Spring Boot基础 第5章分层开发Web应用程序 以上就是《SpringBoot实战派》+《Springboot精髓》+《面试专题+答案解析》总计825页,没有缺页漏页的情况,由于篇幅限制,需要以上完整内容的朋友,添加小助理vx:kaixindian331即可免费获取~ 第6章响应式编程 进阶篇 第7章Spring Boot进阶 第8章用ORM操作SQL数据库 第9章接口架构风格一RESTful 第10章集成安全框架