Apache Spark

2018年英特尔秋季人工智能技术研讨会

此生再无相见时 提交于 2020-10-28 05:01:49
2018年10月16日,在上海英特尔举办了秋季人工智能技术研讨会,主要从芯片硬件和深度学习底层加速工具包介绍了所做的事情。我今天将分享一下我所看到的内容给大家。 Intel针对CPU版本的tensorflow进行了优化,在ResNet50网络上进行了训练和推理测试,同样的硬件条件下,与没有优化的CPU版本的tensorflow结果相比,速度分别提高了14倍和3.2倍。 Intel优化的CPU版本的tensorflow目前只支持最新版的1.10.0,安装也非常简单只需要加一条语句即可:conda install tensorflow -c intel。 Intel对现在大多数深度学习网络进行了优化,例如SSD,UNet,DCGAN等。 Intel对tensorflow中优化的操作有前传操作(conv2d,relu,maxpool,batchnorm,concat等)和后传操作(reluGrad,maxpoolGrad,batchnormGrad等)。 TensorTuner是用来在Intel至强CPU上来调整tensorflow配置的工具。 Intel至强和FPGA芯片可以用于集成,存储,处理,管理和分析等方向。 Intel不同的芯片应用于不同的深度学习需求。 OPENVINO TOOLKIT是用来加速计算机视觉和深度学习推理性能工具包。

大数据就业前景如何?现在学习大数据已经晚了吗?

只愿长相守 提交于 2020-10-28 00:06:03
  大数据就业 前景如何?现在 学习大数据 已经晚了吗?作为初入社会的大学生,或者想改变环境转行的同学,看到大数据技术开发者的高薪资都想进入这个行业,但是现在大数据技术依然想之前那样火爆吗?是不是学习了大数据技术就可以获得高薪呢?   大数据从最开始的概念兴起,到现在各大互联网公司逐步推广使用。已经逐渐成熟,目前营销、电商、教育领域等等对大数据的应用已经初见效果。大数据也从最开始的概念过渡到实际应用领域。对技术人员的招聘也更加趋于理性。所以并非大数据技术不再火爆,而是企业对于大数据从业人员的要求提高了。   根据招聘网站显示,目前大数据工作招聘需求,薪资普遍稳定在15-30K之间。其中目前刚入行的大数据工程师平均薪资在1万左右,而随着工作时间的增加,3~5年经验的大数据工程师的薪资待遇将达到3万元左右。   据相关机构统计,未来的3~5内大数据人才的缺口将达到150万,而且随着大数据的发展,人才缺口将不断扩大,所以大数据不管是目前还是未来长期都将是紧缺人才,受到各大互联网企业的关注。   如果你想投入大数据的怀抱,但却苦于不知如何下手。而当你准备学习大数据技术时,你可以了解一下博斌去计算大数据课程,主要是针对有一定编程开发经验的学员研发的课程。从大数据基础增强开始,内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容

爬取了拉勾大数据专家的简历,终于知道自己差在哪里了

对着背影说爱祢 提交于 2020-10-27 16:17:07
有个朋友,上个月准备从 Java 转做大数据,一个月过去了,一份面试都没约到,来问我怎么回事。 我一看简历,期望年薪 40w,深度也不够,要大项目也没有。 我们做大数据的,虽说是薪资高,但门槛也是高,这几年我陆陆续续面过不少人,对面人选人都算是有自己的心得, 今天就挑一个年薪 40w 的大数据简历,看看人家凭什么! 篇幅有限,我截取了一部分他的工作经历。不管你是已经入坑大数据,还是打算转行大数据,都会让你有一些新的启发。 不管薪资多少,大数据的几个 技术栈 肯定得熟练掌握,这是基石不用说,这哥们算是比较全面的,像是Hadoop MR、 Spark、Storm、Flink等都能熟练使用,能做到这些,要个 20-30w 不成问题。 那人家为啥值 40w 呢?仔细看他还做过项目leader,搞过 项目架构 ,想必综合能力应该不错。果不其然,从简历上看,除了大数据开发,人家还拥有大数据分析、数据仓库架构设计、大数据平台构建、场景化方案定制等多方面的能力。 此外,还有一个大大大大的加分项,人家是做过 千亿级数据项目 的,在我们这个圈子,有这样的经历实在是太难得了。 为了进一步弄清楚行业需求现状,我分析了上百家大厂的大数据岗位要求,梳理出了一份大数据工程师的学习成长路线,给各位看官参考。 总结一下: 如果你也打算转行大数据,你得先掌握上面提到的技术栈,毕竟这是基本功,再就是建立你自己的知识体系

JIRA Apache

自古美人都是妖i 提交于 2020-10-27 12:42:10
jira apache - 国内版 Bing https://cn.bing.com/search?q=jira+apache&qs=n&form=QBRE&sp=-1&pq=jira+apache&sc=0-11&sk=&cvid=9821CDD8C46B417EA556122AE4043541 Apache Arrow - ASF JIRA https://issues.apache.org/jira/projects/ARROW?selectedItem=com.atlassian.jira.jira-projects-plugin:report-page Spark - ASF JIRA https://jira.apache.org/jira/projects/SPARK?selectedItem=com.atlassian.jira.jira-projects-plugin:components-page Jira Component - Apache Camel https://camel.apache.org/components/latest/jira-component.html 登录 - Apache Software Foundation https://cwiki.apache.org/confluence/login.action?os

Java 方式实现词云显示

筅森魡賤 提交于 2020-10-27 06:39:22
先来看下词云效果图吧! 实现词云图2种方式 word_cloud、stylecloud word_cloud : http://amueller.github.io/word_cloud/ stylecloud : https://github.com/minimaxir/stylecloud 1、需要先添加一下maven依赖 <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-core</artifactId> <version>1.27</version> </dependency> <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-tokenizers</artifactId> <version>1.27</version> </dependency> package com.lei.test; import com.kennycason.kumo.CollisionMode; import com.kennycason.kumo.WordCloud; import com.kennycason.kumo.WordFrequency; import com.kennycason.kumo.bg

Unity3d粒子特效:制作火焰效果

白昼怎懂夜的黑 提交于 2020-10-27 05:37:41
效果 分析 真实的火焰效果,通常包括:火、火光、火星等组成部分,火焰燃烧的同时会对周围环境进行烘焙。 1、针对火焰组成部分,我们可以分别创建粒子系统组件实现 2、火焰燃烧对周围环境的烘焙效果,我们可以通过灯光实现,如点光源。 那么,我们通过粒子系统 + 光源实现火焰效果,在Unity3d场景中结构应如下图所示: 1、Fire 火,火焰的主体部分,因燃烧产生的剧烈化学反应,灵动多变; 2、Flash 火光,即火焰的闪光效果,忽明忽暗; 3、Spark 火星,因高温而升起的燃烧碎屑,行踪飘忽,颜色渐变,效果随机; 4、Point Light 光亮,火焰燃烧对周围环境的烘焙效果; 实现 1、新建工程 1.1、新建3D工程 1.2、导入资源素材(后面会提供素材包) 1、天空盒1个 2、多帧火焰形态图1个 3、地面图1个 2、场景搭建 2.1、新建场景FireScene 2.2、设置场景天空盒,选择BlueSkybox 原因:系统默认天空盒太亮,火焰效果对比不明显,视觉冲击力差。 设置天空盒方式: Window --> lighting -->setting 2.3、创建平面(地面) 用于放置火焰,并作为被烘焙对象(即火焰的光照能显示在该物体上) 1、创建Quad,改名Ground 2、置为原点位置,即坐标(0,0,0) 2.4、调整摄像机视角 1、Scene场景中调整为合适视角

CDH常用端口汇总

走远了吗. 提交于 2020-10-26 05:06:34
参考文章: CDH常用端口汇总 Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 10020:historyserver端口 Zookeeper: 2181 : 客户端连接zookeeper的端口 2888 : zookeeper集群内通讯使用,Leader监听此端口 3888 : zookeeper端口 用于选举leader Hbase: 60010:Hbase的master的WEB UI端口 60030:Hbase的regionServer的WEB UI 管理端口 Hive: 9083 : metastore服务默认监听端口 10000:Hive 的JDBC端口 Spark: 7077 : spark 的master与worker进行通讯的端口 standalone集群提交Application的端口 8080 : master的WEB UI端口 资源调度 8081 : worker的WEB UI 端口 资源调度 4040 : Driver的WEB UI 端口 任务调度 18080:Spark History Server的WEB UI 端口 Kafka:

你真知道如何高效用mapPartitions吗?

混江龙づ霸主 提交于 2020-10-25 21:34:57
做过一段时间spark的应用开发的小伙伴都会渐渐发现,很没趣,因为都是调API。那么,真的是没趣吗,还是说你本身没有去深入研究呢?通过本文你就会发现自己没成长是哪的问题了。 浪尖会花一段时间在spark的算子原理分析和高性能使用对比方面的分析,并将这些知识放到浪尖的 知识星球 里。有兴趣的同学扫描底部 二维码 或者点击 阅读原文 加入星球。昨天将spark1.6源码阅读视频已经上传到星球里。 顺便打个广告,浪尖开了知乎,有兴趣的可以关注一下,搜索 浪尖 即可。 1. mappartition粗介 本问主要想讲如何高效的使用mappartition。 首先,说到mappartition大家肯定想到的是map和MapPartition的对比。网上这类教程很多了,以前浪尖也发过类似的,比如 对比foreach和foreachpartition 主要是map和foreach这类的是针对一个元素调用一次我们的函数,也即是我们的函数参数是单个元素,假如函数内部存在数据库链接、文件等的创建及关闭,那么会导致处理每个元素时创建一次链接或者句柄,导致性能底下,很多初学者犯过这种毛病。 而foreachpartition是针对每个分区调用一次我们的函数,也即是我们函数传入的参数是整个分区数据的迭代器,这样避免了创建过多的临时链接等,提升了性能。 下面的例子都是1-20这20个数字

入门大数据---大数据调优汇总

旧时模样 提交于 2020-10-24 20:00:37
前言 不进行优化的代码就是耍流氓。 总体来说大数据优化主要分为三点,一是充分利用CPU,二是节省内存,三是减少网络传输。 一、Hive/MapReduce调优 1.1 本地模式 Hive默认采用集群模式进行计算,如果对于小数据量,可以设置为单台机器进行计算,这样可以大大缩减查询触发任务时间。 用户可以通过设置hive.exec.mode.local.auto 的值为true,来让Hive在适当的时候自动启动这个优化。 set hive.exec.mode.local.auto=true; //开启本地 mr //设置 local mr 的最大输入数据量,当输入数据量小于这个值时采用 local mr 的方式, 默认为 134217728,即 128M set hive.exec.mode.local.auto.inputbytes.max=50000000; //设置 local mr 的最大输入文件个数,当输入文件个数小于这个值时采用 local mr 的方 式,默认为 4 set hive.exec.mode.local.auto.input.files.max=10; 1.2 null值过滤OR随机分配null值 null值过滤 对于key值倾斜,有的时候是无效的null导致的,这个时候可以考虑过滤掉。 hive (default)> insert overwrite

数据湖有新解!Apache Hudi 与 Apache Flink 集成

偶尔善良 提交于 2020-10-23 13:19:01
简介: 纵观大数据领域成熟、活跃、有生命力的框架,无一不是设计优雅,能与其他框架相互融合,彼此借力,各专所长。 作者:王祥虎(Apache Hudi 社区) Apache Hudi 是由 Uber 开发并开源的数据湖框架,它于 2019 年 1 月进入 Apache 孵化器孵化,次年 5 月份顺利毕业晋升为 Apache 顶级项目。是当前最为热门的数据湖框架之一。 1. 为何要解耦 Hudi 自诞生至今一直使用 Spark 作为其数据处理引擎。如果用户想使用 Hudi 作为其数据湖框架,就必须在其平台技术栈中引入 Spark。放在几年前,使用 Spark 作为大数据处理引擎可以说是很平常甚至是理所当然的事。因为 Spark 既可以进行批处理也可以使用微批模拟流,流批一体,一套引擎解决流、批问题。然而,近年来,随着大数据技术的发展,同为大数据处理引擎的 Flink 逐渐进入人们的视野,并在计算引擎领域获占据了一定的市场,大数据处理引擎不再是一家独大。在大数据技术社区、论坛等领地,Hudi 是否支持使用 Flink 计算引擎的的声音开始逐渐出现,并日渐频繁。所以使 Hudi 支持 Flink 引擎是个有价值的事情,而集成 Flink 引擎的前提是 Hudi 与 Spark 解耦。 同时,纵观大数据领域成熟、活跃、有生命力的框架,无一不是设计优雅,能与其他框架相互融合,彼此借力,各专所长