Apache Spark | 易学教程

2018年英特尔秋季人工智能技术研讨会

阅读更多关于 2018年英特尔秋季人工智能技术研讨会

2018年10月16日，在上海英特尔举办了秋季人工智能技术研讨会，主要从芯片硬件和深度学习底层加速工具包介绍了所做的事情。我今天将分享一下我所看到的内容给大家。 Intel针对CPU版本的tensorflow进行了优化，在ResNet50网络上进行了训练和推理测试，同样的硬件条件下，与没有优化的CPU版本的tensorflow结果相比，速度分别提高了14倍和3.2倍。 Intel优化的CPU版本的tensorflow目前只支持最新版的1.10.0，安装也非常简单只需要加一条语句即可：conda install tensorflow -c intel。 Intel对现在大多数深度学习网络进行了优化，例如SSD，UNet，DCGAN等。 Intel对tensorflow中优化的操作有前传操作（conv2d，relu，maxpool，batchnorm，concat等）和后传操作（reluGrad，maxpoolGrad，batchnormGrad等）。 TensorTuner是用来在Intel至强CPU上来调整tensorflow配置的工具。 Intel至强和FPGA芯片可以用于集成，存储，处理，管理和分析等方向。 Intel不同的芯片应用于不同的深度学习需求。 OPENVINO TOOLKIT是用来加速计算机视觉和深度学习推理性能工具包。

大数据就业前景如何？现在学习大数据已经晚了吗？

阅读更多关于大数据就业前景如何？现在学习大数据已经晚了吗？

　大数据就业前景如何？现在学习大数据已经晚了吗？作为初入社会的大学生，或者想改变环境转行的同学，看到大数据技术开发者的高薪资都想进入这个行业，但是现在大数据技术依然想之前那样火爆吗？是不是学习了大数据技术就可以获得高薪呢？　　大数据从最开始的概念兴起，到现在各大互联网公司逐步推广使用。已经逐渐成熟，目前营销、电商、教育领域等等对大数据的应用已经初见效果。大数据也从最开始的概念过渡到实际应用领域。对技术人员的招聘也更加趋于理性。所以并非大数据技术不再火爆，而是企业对于大数据从业人员的要求提高了。　　根据招聘网站显示，目前大数据工作招聘需求，薪资普遍稳定在15-30K之间。其中目前刚入行的大数据工程师平均薪资在1万左右，而随着工作时间的增加，3~5年经验的大数据工程师的薪资待遇将达到3万元左右。　　据相关机构统计，未来的3~5内大数据人才的缺口将达到150万，而且随着大数据的发展，人才缺口将不断扩大，所以大数据不管是目前还是未来长期都将是紧缺人才，受到各大互联网企业的关注。　　如果你想投入大数据的怀抱，但却苦于不知如何下手。而当你准备学习大数据技术时，你可以了解一下博斌去计算大数据课程，主要是针对有一定编程开发经验的学员研发的课程。从大数据基础增强开始，内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容

爬取了拉勾大数据专家的简历，终于知道自己差在哪里了

阅读更多关于爬取了拉勾大数据专家的简历，终于知道自己差在哪里了

有个朋友，上个月准备从 Java 转做大数据，一个月过去了，一份面试都没约到，来问我怎么回事。我一看简历，期望年薪 40w，深度也不够，要大项目也没有。我们做大数据的，虽说是薪资高，但门槛也是高，这几年我陆陆续续面过不少人，对面人选人都算是有自己的心得，今天就挑一个年薪 40w 的大数据简历，看看人家凭什么！篇幅有限，我截取了一部分他的工作经历。不管你是已经入坑大数据，还是打算转行大数据，都会让你有一些新的启发。不管薪资多少，大数据的几个技术栈肯定得熟练掌握，这是基石不用说，这哥们算是比较全面的，像是Hadoop MR、 Spark、Storm、Flink等都能熟练使用，能做到这些，要个 20-30w 不成问题。那人家为啥值 40w 呢？仔细看他还做过项目leader，搞过项目架构，想必综合能力应该不错。果不其然，从简历上看，除了大数据开发，人家还拥有大数据分析、数据仓库架构设计、大数据平台构建、场景化方案定制等多方面的能力。此外，还有一个大大大大的加分项，人家是做过千亿级数据项目的，在我们这个圈子，有这样的经历实在是太难得了。为了进一步弄清楚行业需求现状，我分析了上百家大厂的大数据岗位要求，梳理出了一份大数据工程师的学习成长路线，给各位看官参考。总结一下：如果你也打算转行大数据，你得先掌握上面提到的技术栈，毕竟这是基本功，再就是建立你自己的知识体系

JIRA Apache

阅读更多关于 JIRA Apache

jira apache - 国内版 Bing https://cn.bing.com/search?q=jira+apache&qs=n&form=QBRE&sp=-1&pq=jira+apache&sc=0-11&sk=&cvid=9821CDD8C46B417EA556122AE4043541 Apache Arrow - ASF JIRA https://issues.apache.org/jira/projects/ARROW?selectedItem=com.atlassian.jira.jira-projects-plugin:report-page Spark - ASF JIRA https://jira.apache.org/jira/projects/SPARK?selectedItem=com.atlassian.jira.jira-projects-plugin:components-page Jira Component - Apache Camel https://camel.apache.org/components/latest/jira-component.html 登录 - Apache Software Foundation https://cwiki.apache.org/confluence/login.action?os

Java 方式实现词云显示

阅读更多关于 Java 方式实现词云显示

先来看下词云效果图吧！实现词云图2种方式 word_cloud、stylecloud word_cloud ： http://amueller.github.io/word_cloud/ stylecloud ： https://github.com/minimaxir/stylecloud 1、需要先添加一下maven依赖 <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-core</artifactId> <version>1.27</version> </dependency> <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-tokenizers</artifactId> <version>1.27</version> </dependency> package com.lei.test; import com.kennycason.kumo.CollisionMode; import com.kennycason.kumo.WordCloud; import com.kennycason.kumo.WordFrequency; import com.kennycason.kumo.bg

Unity3d粒子特效：制作火焰效果

阅读更多关于 Unity3d粒子特效：制作火焰效果

效果分析真实的火焰效果，通常包括：火、火光、火星等组成部分，火焰燃烧的同时会对周围环境进行烘焙。 1、针对火焰组成部分，我们可以分别创建粒子系统组件实现 2、火焰燃烧对周围环境的烘焙效果，我们可以通过灯光实现，如点光源。那么，我们通过粒子系统 + 光源实现火焰效果，在Unity3d场景中结构应如下图所示： 1、Fire 火，火焰的主体部分，因燃烧产生的剧烈化学反应，灵动多变； 2、Flash 火光，即火焰的闪光效果，忽明忽暗； 3、Spark 火星，因高温而升起的燃烧碎屑，行踪飘忽，颜色渐变，效果随机； 4、Point Light 光亮，火焰燃烧对周围环境的烘焙效果；实现 1、新建工程 1.1、新建3D工程 1.2、导入资源素材（后面会提供素材包） 1、天空盒1个 2、多帧火焰形态图1个 3、地面图1个 2、场景搭建 2.1、新建场景FireScene 2.2、设置场景天空盒，选择BlueSkybox 原因：系统默认天空盒太亮，火焰效果对比不明显，视觉冲击力差。设置天空盒方式： Window --> lighting -->setting 2.3、创建平面(地面) 用于放置火焰，并作为被烘焙对象（即火焰的光照能显示在该物体上） 1、创建Quad，改名Ground 2、置为原点位置，即坐标（0，0，0） 2.4、调整摄像机视角 1、Scene场景中调整为合适视角

CDH常用端口汇总

阅读更多关于 CDH常用端口汇总

参考文章： CDH常用端口汇总 Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 10020：historyserver端口 Zookeeper: 2181 ：客户端连接zookeeper的端口 2888 ： zookeeper集群内通讯使用，Leader监听此端口 3888 ： zookeeper端口用于选举leader Hbase: 60010：Hbase的master的WEB UI端口 60030：Hbase的regionServer的WEB UI 管理端口 Hive: 9083 : metastore服务默认监听端口 10000：Hive 的JDBC端口 Spark： 7077 ： spark 的master与worker进行通讯的端口 standalone集群提交Application的端口 8080 ： master的WEB UI端口资源调度 8081 ： worker的WEB UI 端口资源调度 4040 ： Driver的WEB UI 端口任务调度 18080：Spark History Server的WEB UI 端口 Kafka：

你真知道如何高效用mapPartitions吗？

阅读更多关于你真知道如何高效用mapPartitions吗？

做过一段时间spark的应用开发的小伙伴都会渐渐发现，很没趣，因为都是调API。那么，真的是没趣吗，还是说你本身没有去深入研究呢？通过本文你就会发现自己没成长是哪的问题了。浪尖会花一段时间在spark的算子原理分析和高性能使用对比方面的分析，并将这些知识放到浪尖的知识星球里。有兴趣的同学扫描底部二维码或者点击阅读原文加入星球。昨天将spark1.6源码阅读视频已经上传到星球里。顺便打个广告，浪尖开了知乎，有兴趣的可以关注一下，搜索浪尖即可。 1. mappartition粗介本问主要想讲如何高效的使用mappartition。首先，说到mappartition大家肯定想到的是map和MapPartition的对比。网上这类教程很多了，以前浪尖也发过类似的，比如对比foreach和foreachpartition 主要是map和foreach这类的是针对一个元素调用一次我们的函数，也即是我们的函数参数是单个元素，假如函数内部存在数据库链接、文件等的创建及关闭，那么会导致处理每个元素时创建一次链接或者句柄，导致性能底下，很多初学者犯过这种毛病。而foreachpartition是针对每个分区调用一次我们的函数，也即是我们函数传入的参数是整个分区数据的迭代器，这样避免了创建过多的临时链接等，提升了性能。下面的例子都是1-20这20个数字

入门大数据---大数据调优汇总

阅读更多关于入门大数据---大数据调优汇总

前言不进行优化的代码就是耍流氓。总体来说大数据优化主要分为三点，一是充分利用CPU，二是节省内存，三是减少网络传输。一、Hive/MapReduce调优 1.1 本地模式 Hive默认采用集群模式进行计算，如果对于小数据量，可以设置为单台机器进行计算，这样可以大大缩减查询触发任务时间。用户可以通过设置hive.exec.mode.local.auto 的值为true，来让Hive在适当的时候自动启动这个优化。 set hive.exec.mode.local.auto=true; //开启本地 mr //设置 local mr 的最大输入数据量，当输入数据量小于这个值时采用 local mr 的方式，默认为 134217728，即 128M set hive.exec.mode.local.auto.inputbytes.max=50000000; //设置 local mr 的最大输入文件个数，当输入文件个数小于这个值时采用 local mr 的方式，默认为 4 set hive.exec.mode.local.auto.input.files.max=10; 1.2 null值过滤OR随机分配null值 null值过滤对于key值倾斜，有的时候是无效的null导致的，这个时候可以考虑过滤掉。 hive (default)> insert overwrite

数据湖有新解！Apache Hudi 与 Apache Flink 集成

阅读更多关于数据湖有新解！Apache Hudi 与 Apache Flink 集成

简介：纵观大数据领域成熟、活跃、有生命力的框架，无一不是设计优雅，能与其他框架相互融合，彼此借力，各专所长。作者：王祥虎（Apache Hudi 社区） Apache Hudi 是由 Uber 开发并开源的数据湖框架，它于 2019 年 1 月进入 Apache 孵化器孵化，次年 5 月份顺利毕业晋升为 Apache 顶级项目。是当前最为热门的数据湖框架之一。 1. 为何要解耦 Hudi 自诞生至今一直使用 Spark 作为其数据处理引擎。如果用户想使用 Hudi 作为其数据湖框架，就必须在其平台技术栈中引入 Spark。放在几年前，使用 Spark 作为大数据处理引擎可以说是很平常甚至是理所当然的事。因为 Spark 既可以进行批处理也可以使用微批模拟流，流批一体，一套引擎解决流、批问题。然而，近年来，随着大数据技术的发展，同为大数据处理引擎的 Flink 逐渐进入人们的视野，并在计算引擎领域获占据了一定的市场，大数据处理引擎不再是一家独大。在大数据技术社区、论坛等领地，Hudi 是否支持使用 Flink 计算引擎的的声音开始逐渐出现，并日渐频繁。所以使 Hudi 支持 Flink 引擎是个有价值的事情，而集成 Flink 引擎的前提是 Hudi 与 Spark 解耦。同时，纵观大数据领域成熟、活跃、有生命力的框架，无一不是设计优雅，能与其他框架相互融合，彼此借力，各专所长

订阅 Apache Spark