yarn | 易学教程

phpstorm, webstorm debug调试JS

阅读更多关于 phpstorm, webstorm debug调试JS

第一步：给你的 Chrome 添加 JetBrains IDE Support 的插件，需要翻墙，就是下图的这个。第二步：我们把项目跑起来，也就是运行命令，我这边是 yarn run start 　　第三步：打开 Webstorm（Phpstorm）的运行窗口，点击 Edite Connfigurations 添加一个JavaScript Debug name可以自定义，URL根据自己实际情况，（我这边没有在下面的 Before launch:Show this page,Activate tool window 这一栏里添加这个项目 npm start 或者 yarn start 的启动脚本，一定要先启动项目，然后在点虫子按钮）需要设置的话，配置如下，具体命令和package.json根据实际情况配置浏览器的配置，点击后就后开启监控点小虫虫开始debug，谷歌浏览器会弹出一个独立的浏览器页面用于调试重点来了，有时候你在编辑器的代码可能断点不了，可以用console.log()打印，然后在浏览器点进源码进行断点，触发时会自动联动到编辑器来源： oschina 链接： https://my.oschina.net/u/4374544/blog/3227795

hadoop 2.9.2 完全分布式安装

阅读更多关于 hadoop 2.9.2 完全分布式安装

完全分布式安装完全分布式环境部署Hadoop 完全分布式是真正利用多台Linux主机进行部署Hadoop，对Linux机器集群进行规划，使Hadoop各个模块分别部署在不同的多台机器上； 1.环境准备虚拟机安装，在此使用KVM虚拟机； 2.网络配置配置完成后可以访问外网即可； 3.hostname配置将三台主机分别命名加以区分； 4.hosts配置修改主机名 hostname hadoop-node1 hostname hadoop-node2 hostname hadoop-node3 将三台主机名和IP地址对应关系写入hosts文件； vim /etc/hosts 10.10.2.177 hadoop-node1 10.10.2.178 hadoop-node2 10.10.2.179 hadoop-node3 5.服务器功能角色规划 hadoop-node1 hadoop-node2 hadoop-node3 NameNode ResourceManage DataNode DataNode DataNode NodeManager NodeManager NodeManager HistoryServer SecondaryNameNode 6.在一台机器上安装Hadoop #在此，先在第一台机器上解压、配置hadoop

玩转大数据-如何使用14台服务器部署hbase集群

阅读更多关于玩转大数据-如何使用14台服务器部署hbase集群

防伪码:大鹏一日同风起，扶摇直上九万里。一、环境介绍操作平台：物理机操作系统：CentOS 6.5 软件版本：hadoop-2.5.2,hbase-1.1.2-bin,jdk-7u79-linux-x64,protobuf-2.5.0,snappy-1.1.1,zookeeper-3.4.6,hadoop-snappy-0.0.1-SNAPSHOT 软件部署用户：hadoop 软件放置位置：/opt/soft 软件安装位置：/opt/server 软件数据位置：/opt/data 软件日志位置：/opt/var/logs 主机名 IP地址 Hadoop进程 INVOICE-GL-01 10.162.16.6 QuorumPeerMain ,HMaster INVOICE-GL-02 10.162.16.7 QuorumPeerMain ,HMaster INVOICE-GL-03 10.162.16.8 QuorumPeerMain ,HMaster INVOICE-23 10.162.16.227 NameNode, DFSZKFailoverController INVOICE-24 10.162.16.228 NameNode, DFSZKFailoverController INVOICE-25 10.162.16.229 JournalNode, DataNode,

Hadoop运行在Kubernetes平台实践

阅读更多关于 Hadoop运行在Kubernetes平台实践

Hadoop与Kubernetes就好像江湖里的两大绝世高手，一个是成名已久的长者，至今仍然名声远扬，一个则是初出茅庐的青涩少年，骨骼惊奇，不走寻常路，一出手便惊诧了整个武林。Hadoop与Kubernetes之间有很深的渊源，因为都出自IT豪门——Google，只不过，后者是亲儿子，正因为有大佬背书，所以Kubernetes一出山，江湖各路门派便都蜂拥而至，拥护称王。不知道是因为Hadoop是干儿子的缘故还是因为“廉颇老矣”，总之，Hadoop朋友圈的后辈们如Spark、Storm等早都有了在Kubernetes上部署运行的各种资料和案例，但Hadoop却一直游离于Kubernetes体系之外，本文我们给出Hadoop在Kubernetes上的实践案例，以弥补这种缺憾。 Hadoop容器化的资料不少，但Hadoop部署在Kubernetes上的资料几乎没有，这主要是以下几个原因导致的：第一， Hadoop集群重度依赖DNS机制，一些组件还使用了反向域名解析，以确定集群中的节点身份，这对Hadoop在Kubernetes上的建模和运行带来极大挑战，需要深入了解Hadoop集群工作原理并且精通Kubernetes，才能很好解决这一难题。第二， Hadoop新的Map-Reduce计算框架Yarn的模型出现的比较晚，它的集群机制要比HDFS复杂，资料也相对较少

Hadoop入门之hdfs

阅读更多关于 Hadoop入门之hdfs

大数据技术开篇之Hadoop入门【hdfs】　　　　学习都是从了解到熟悉的过程，而学习一项新的技术的时候都是从这个技术是什么？可以干什么？怎么用？如何优化？这几点开始。今天这篇文章分为两个部分。一、hadoop概述二、hadoop核心技术之一的hdfs的讲解。【hadoop概述】一、hadoop是什么？ Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。　　简单概况就是hadoop是一个分布式系统的基础架构，通过分布式来进行高速运算和存储。二、用来干什么？　

三、Spark性能优化：数据倾斜调优

阅读更多关于三、Spark性能优化：数据倾斜调优

前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。 1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。这种情况比较少见。数据倾斜发生的原理数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据

Hadoop常用操作

阅读更多关于 Hadoop常用操作

Hadoop常用操作 1、Hadoop安装略 2、Hadoop配置略 3、Hadoop多目录配置 namenode和datanode节点下都可以进行多个目录的配置，但是意义不同。namenode的多目录配置是副本策略，保证数据可靠性，datanode多目录配置是对容量进行扩容，由于datanode已经有副本机制了。 [hdfs-site.xml]  <property> <name>dfs.namenode.name.dir</name> <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value> </property>  <property> <name>dfs.datanode.data.dir</name> <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value> </property> 其中${hadoop.tmp.dir}是hadoop临时目录配置。 [core-site.xml] <property> <name>hadoop.tmp.dir</name>

李

阅读更多关于李

1.外面的电脑可以访问本机的虚拟机（共享虚拟机服务） iptables -t nat -A PREROUTING -i enp2s0 -d 172.40.5.1 -p tcp --dport 2222 -j DNAT --to 192.168.4.10:22（路由前iptables作目的地址转发） 2.虚拟机连接外网 1）关闭本机防火墙服务 systemctl stop firewalld.service 2）开启本机路由转发功能 sysctl -w net.ipv4.ip_forward=1 3）iptables作源地址伪装 iptables -t nat -A POSTROUTING -s 192.168.4.0/24 -o p8p1 -j MASQUERADE 4）在虚拟机里添加网关地址：route add default gw 192.168.4.254 3.brctl show 查看网桥 brctl addbr lo1 创建网桥 brctl delbr lo1 删除网桥 brctl addif lo1 连接网桥 brctl delif lo1 断开连接一。ansible介绍 1.自动化运维工具，基于Python开发，集合了众多运维工具（puppet、chef、func、fabric）的优点，实现了批量系统配置、批量程序部署、批量运行命令等功能。二。ansible特点

flink业务使用记录

阅读更多关于 flink业务使用记录

flink业务使用记录部署好flink集群，我的模式是flink on yarn 新建flink处理逻辑代码模块将该模块打成可执行的jar放到整个项目中在flink客户端执行提交作业操作在flink管理页面上查看业务详情。 Flink窗口函数(Window Functions) 定义完窗口分配器后，我们还需要为每一个窗口指定我们需要执行的计算，这是窗口的责任，当系统决定一个窗口已经准备好执行之后，这个窗口函数将被用来处理窗口中的每一个元素(可能是分组的)。请参考: https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/windows.html#triggers 来了解当一个窗口准备好之后，Flink是如何决定的。　　window函数可以是 ReduceFunction , FoldFunction 或者 WindowFunction 中的一个。前面两个更高效一些(),因为在每个窗口中增量地对每一个到达的元素执行聚合操作。一个 WindowFunction 可以获取一个窗口中的所有元素的一个迭代以及哪个元素属于哪个窗口的额外元信息。　　有 WindowFunction 的窗口化操作会比其他的操作效率要差一些，因为Flink内部在调用函数之前会将窗口中的所有元素都缓存起来。这个可以通过

Windows下Yarn安装与使用

阅读更多关于 Windows下Yarn安装与使用

参考博客 1.安装yarn 方法一：使用安装包安装官方下载安装包， https://yarnpkg.com/zh-Hans/docs/install，安装完毕后，一定要配置环境变量。方法二：使用npm安装 npm i yarn -g -i：install -g：全局安装（global）,使用 -g 或 --global 输入yarn -version 可以看到版本号，说明安装成功了。我们就可以在项目中像使用npm一样使用yarn了。 2.卸载yarn 1.安装包直接软件卸载。 2.npm安装的则通过命令npm uninstall yarn -g卸载。来源： https://www.cnblogs.com/ZeroTensor/p/10880744.html

订阅 yarn