yarn | 易学教程

超详细的hadoop伪分布配置教程

阅读更多关于超详细的hadoop伪分布配置教程

创建虚拟机：1 配置静态ip：2 第一步是首先查看虚拟网络编辑器。查看网关和起始结束ip 如果不能ping网络则可能是以下问题： xshell连接虚拟机：接下来我们就在usr/local目录下传文件这里说一下返回上一级目录的命令是cd.. 接下来配置java和hadoop的环境变量但是配置环境变量前要先进虚拟机中原有的java包删掉接下来配置ssh无密码登陆以及主机名和主机和ip映射以及主节点去到usr/local路径解压java和hadoop 关闭防火墙：查看防火墙状况 systemctl status firewalld . service 关闭防火墙：systemctl stop firewalld.service 永久关闭防火墙： systemctl disable firewalld . service 配置环境变量： #java环境变量 JAVA_HOME = / usr / local / jdk1 . 8.0 _241 HADOOP_HOME = / usr / local / hadoop - 2.7 .1 CLASSPATH = . :$JAVA_HOME / lib / dt . jar:$JAVA_HOME / lib / tools . jar PATH = $JAVA_HOME / bin:$HADOOP_HOME / bin:$HADOOP

第一个Vue页面

阅读更多关于第一个Vue页面

一、安装node https://nodejs.org/en/ 直接选择LTS长期支持版下载对应系统安装文件进行安装。安装完后，打开cmd命令行界面 node -v 查看对应安装版本,例：v12.18.3 安装淘宝cnpm sudo npm install cnpm -g --registry=https://registry.npm.taobao.org 安装yarn(fackbook依赖管理工具与Npm功能一样，推荐使用！！！) npm install -g yarn 通过yarn -v查看安装版本 Yarn 淘宝源安装 yarn config set registry https://registry.npm.taobao.org -g 二、全局安装Vue-cli脚手架 sudo cnpm install vue-cli -g 可通过vue --version查看vue-cli版本号三、全局安装Webpack打包 sudo cnpm install webpack -g 同样可通过webpack -v查看版本四、安装http服务安装npm serve sudo npm install -g serve 安装 http-server npm install http-server -g 五、使用Vue-cli脚手架搭建一个vue页面

Hadoop2.7.3在centos7上的单机版安装部署

阅读更多关于 Hadoop2.7.3在centos7上的单机版安装部署

1、使用到的工具版本说明： centos版本：CentOS-7.4-x86_64-DVD-1708.iso JDK版本：jdk-8u231-linux-x64.tar.gz Hadoop版本：hadoop-2.7.3.tar.gz https://archive.apache.org/dist/hadoop/common/ ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201017131939971.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3l0YW5nZGlnbA==,size_16,color_FFFFFF,t_70#pic_center) 2、环境准备 2.1 安装centos 参考：在VirtualBox中安装CentOS7详解(Mac版) 2.2 关闭防火墙 # 停止firewall systemctl stop firewalld.service # 禁止firewall开机启动 systemctl disable firewalld.service 2.3 配置SSH免密码登录 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

深入浅出FE（十三）前端nexus3 Yarn离线部署npm仓库

阅读更多关于深入浅出FE（十三）前端nexus3 Yarn离线部署npm仓库

Table of Contents 一、前提二、nexus3 npm仓库搭建 Nexus Repository Manager 中添加 npm Proxying npm Registries Private npm Registries Grouping npm Registries 设置权限发布到hosted 三、下载项目需要的npm包四、批量上传npm包到仓库五、参考资料网上的很多教程都是服务器可以连接外网的前提下撰写的，但看过无数教程还没有一个专门针对服务器离线环境如何部署一个npm仓库。一、前提服务器离线、仓库离线二、nexus3 npm仓库搭建 Nexus Repository Manager 中添加 npm 如果点击：这里有三个类型的npm选项：附上某歌翻译： Proxying npm Registries 为了减少开发人员和CI服务器的重复下载量并提高下载速度，您应该对托管在 https://registry.npmjs.org 上的注册表进行代理。默认情况下，npm直接访问此注册表。您还可以代理您需要的任何其他注册表。要代理外部npm注册表，您只需创建一个新的npm（代理），如“存储库管理”中所述。最小配置步骤是：定义名称定义远程存储的URL，例如 https://registry.npmjs.org 选择存储的Blob存储

hadoop2.7.2搭建完全分布式集群

阅读更多关于 hadoop2.7.2搭建完全分布式集群

新建虚拟机修改虚拟机的静态IP 修改主机名,添加主机和ip的映射关系关闭防火墙（1-4 通过脚本完成）创建普通用户　　useradd jinghang 　　passwd jinghang 配置普通用户具有root权限　　vim /etc/sudoers 　　　　在91行下添加如下内容：　　　　jinghang ALL=(ALL) NOPASSWD:ALL 完成后:wq! 7.在/opt目录下创建文件夹（software存放压缩软件包，modul存放解压后的软件包）在/opt目录下创建module、software文件夹 mkdir /opt/module /opt/software 修改module、software文件夹所有者和所属组 chown jinghang:jinghang /opt/module /opt/software 8、关机拍摄快照 9、从拍照位置克隆三台虚拟机 10、克隆虚拟机有两个网卡(三台都需要改)：进入这个文件 vim /etc/udev/rules.d/70-persistent-net.rules 　1.删除 NAME="eth0"这一行　2.修改NAME="eth1" -> NAME="eth0" (:wq!) 　3.复制ADDR地址（虚拟mac地址）　4.进入到　vim /etc/sysconfig/network

JobHistory介绍及安装配置

阅读更多关于 JobHistory介绍及安装配置

JobHistory 1、namenode修改mapred-site.xml 2、namenode修改yarn-site.xml 3、修改后的文件分发到其他机器上面去 4、重启yarn集群以及启动jobHistoryServer进程 5、jobhistoryserver 6、页面访问jobhistoryserver 我们可以通过Hadoop jar的命令来实现我们的程序jar包的运行，关于运行的日志，我们一般都需要通过启动一个服务来进行查看，就是我们的JobHistoryServer，我们可以启动一个进程，专门用于查看我们的任务提交的日志要修改的配置文件中要将value里面的node01修改为namenode主机名 1、namenode修改mapred-site.xml cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop vim mapred-site.xml namenode服务器修改mapred-site.xml，添加以下配置: <property> <name>mapreduce.jobhistory.address</name> <value>node01:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address<

0808-7.1.1-如何在CDP7.1.1指定Hive SQL的资源池队列

阅读更多关于 0808-7.1.1-如何在CDP7.1.1指定Hive SQL的资源池队列

文档编写目的 Fayson在CDP7.1.1 的使用过程中，发现在使用Hive SQL 中默认无法修改Hive 的资源池，只能提交到defalut 或者 root.hive 队列下，而且显示的提交用户都是hive。这对于一个生产环境中的资源池管理是致命的缺陷，本文主要介绍在CDP7.1.1中如何配置用户的Hive SQL 的资源池队列测试环境 1.操作系统Redhat7.6 2.CDP DC7.1.1 操作步骤 Fayson使用test用户进行验证，创建了一个root.test 的资源池，设置放置规则test 用户放置到root.test 池下进行验证，具体操作如下： 1、首先确保你集群中的YARN Queue Manager是正常工作的，然后点击群集>动态资源池，在Yarn 创建资源池创建root.test 资源池，root.test资源池配置这里比例为10%,可根据资源情况自行调整 2、设置队列放置规则 Fayson 这里只针对test 用户，设置将test 用户的队列放置到root.test 资源池下然后执行pyspark 命令验证已经生效。 3、进入beeline 命令或者在hue 中创建一个测试表,并插入一条数据验证 kinit test create table test (s1 string ,s2 string ); insert into test

day2

阅读更多关于 day2

1. npm有很多插件。可以去官网查看 2.-S项目依赖 3._D开发依赖 4.配置环境变量 5.node常用的API 1)url 2)query string比JSON功能更加强大。JSON.parse转的话是直接去掉引号 3)事件 ES6继承 ES5继承 // 原型方法 // emit 发送事件 // on 监听事件 // once 监听一次 4）filesystem 5)stream 注意：如果是http协议端口是80 https 下午：讲路由----然后接下来课程mongoDB—express—express项目—socket网络通讯即时聊天在线聊天----然后差不多node讲完了复习上午：模块化：暴露及引入 npm入门全局安装项目依赖开发依赖 yarn add/remove 插件的安装及卸载查看版本list 查看info 指定版本@版本号[可以升级和降板本] nrm ls 查看所有源记住一定要安装淘宝镜像 nodeAPI url.parse()解析字符串解析请求地址 true的话得到对象形式的query querystring.parse() querystring.stringfy() &加字符串拼接 event事件对象：先继承构造函数由三部分组成：构造器原型静态属性 event这个类有三个方法：on emit once 下午路由读取标签

Spark优化之小文件是否需要合并?

阅读更多关于 Spark优化之小文件是否需要合并?

我们知道，大部分Spark计算都是在内存中完成的，所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张，CPU，网络带宽，内存。Spark的性能，想要它快，就得充分利用好系统资源，尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内存占用，例如将小文件进行合并的操作。一、问题现象我们有一个15万条总数据量133MB的表，使用SELECT * FROM bi.dwd_tbl_conf_info全表查询耗时3min，另外一个500万条总数据量6.3G的表ods_tbl_conf_detail，查询耗时23秒。两张表均为列式存储的表。大表查询快，而小表反而查询慢了，为什么会产生如此奇怪的现象呢？二、问题探询数据量6.3G的表查询耗时23秒，反而数据量133MB的小表查询耗时3min，这非常奇怪。我们收集了对应的建表语句，发现两者没有太大的差异，大部分为String，两表的列数也相差不大。 CREATE TABLE IF NOT EXISTS `bi`.`dwd_tbl_conf_info` ( `corp_id` STRING COMMENT '', `dept_uuid` STRING COMMENT '', `user_id` STRING COMMENT '', `user_name` STRING COMMENT

不看就亏系列！这里有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！| 附代码

阅读更多关于不看就亏系列！这里有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！| 附代码

不看就亏系列！这里有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！| 附代码 Hadoop介绍 Hadoop 是 Lucene 创始人 Doug Cutting，根据 Google 的相关内容山寨出来的分布式文件系统和对海量数据进行分析计算的基础框架系统，其中包含 MapReduce 程序，hdfs 系统等！[它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。] Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。 Hadoop的框架最核心的设计：HDFS 和mapreduce HDFS：为海量数据提供存储 MapReduce: 为海量数据提供了计算cluster:集群 LB：负载均衡 LVS SLB HAPROXY,nginx HA：高可用 MHA，keepalived，hearebeat

订阅 yarn