yarn | 易学教程

Github actions, 401 unauthorized when installing a Github Package with npm or yarn

阅读更多关于 Github actions, 401 unauthorized when installing a Github Package with npm or yarn

问题 When I try to install my npm modules from a GitHub action I get the following error: npm ERR! 401 Unauthorized - GET https://npm.pkg.github.com/@xxxx%2fxxxx-analytics - Your request could not be authenticated by the GitHub Packages service. Please ensure your access token is valid and has the appropriate scopes configured. Before you comment, I have configured the .npmrc correctly with the scope and access token, and everything works fine when installing the private package locally. Here is

Github actions, 401 unauthorized when installing a Github Package with npm or yarn

阅读更多关于 Github actions, 401 unauthorized when installing a Github Package with npm or yarn

Github actions, 401 unauthorized when installing a Github Package with npm or yarn

阅读更多关于 Github actions, 401 unauthorized when installing a Github Package with npm or yarn

2020大数据面试题真题总结(附答案)

阅读更多关于 2020大数据面试题真题总结(附答案)

版本更新时间更新内容 v1.0 2020-07-01 新建 v1.1 2020-06-13 朋友面试大数据工程师提供的关于架构及数仓方面的题目 v1.2 2020-08-08 朋友面试数据专家提供的数据驱动，spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的题目一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,怎么一个流程恢复 5.hadoop 的 namenode 宕机,怎么解决 6.namenode对元数据的管理 7.元数据的checkpoint 8.yarn资源调度流程 9.hadoop中combiner和partition的作用 10.用mapreduce怎么处理数据倾斜问题？ 11.shuffle 阶段,你怎么理解的 12.Mapreduce 的 map 数量和 reduce 数量是由什么决定的 ,怎么配置 13.MapReduce优化经验 14.分别举例什么情况要使用 combiner，什么情况不使用？ 15.MR运行流程解析 16.简单描述一下HDFS的系统架构，怎么保证数据安全? 17.在通过客户端向hdfs中写数据的时候，如果某一台机器宕机了，会怎么处理 18.Hadoop优化有哪些方面 19.大量数据求topN

0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）

阅读更多关于 0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）

文档编写目的在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续) 》中介绍了如何在集群外的客户端节点上访问Hadoop集群，本篇文章在前面文章的基础上基于Kerberos环境的CDH集群介绍，如何在集群外客户端跨网段向Kerberos环境的Hadoop集群提交MapReduce和Spark作业。测试环境 1.Redhat7.4 2.CDH5.16.1 3.集群已启用Kerberos 修改HDFS配置 1.进入HDFS服务的配置页面 2.在搜索栏输入“bind”勾选如下配置，将各服务的端口号绑定到0.0.0.0 3.搜索“core-site.xml”在高级配置项增加如下配置 < property > < name > hadoop.security.token.service.use_ip </ name > < value > false </ value > </ property > 4.搜索“hdfs-site.xml”在高级配置项增加如下配置 < property > < name > dfs.client.use.datanode.hostname </ name > < value > true </ value > </ property > 注意：该配置属于HDFS的Gateway角色高级参数

tenserflow.js 环境搭建

阅读更多关于 tenserflow.js 环境搭建

1.安装nodejs http://nodejs.cn/download/ 安装yarn npm install -g yarn 查看版本：yarn --version 2. 一、安装　有两种方法可以在你的项目中引入tensorflow.js。一种是通过script标签引入，另外一种就是通过npm进行安装。（1）通过script标签，如下：复制代码 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>tensorflow</title> <script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs@0.9.0"></script> </head> <body> <script> console.log(tf); </script> </body> </html> 来源： oschina 链接： https://my.oschina.net/u/4349634/blog/4732708

巨鲸任务调度平台

阅读更多关于巨鲸任务调度平台

Big Whale 巨鲸任务调度平台为美柚大数据研发的分布式计算任务调度系统，提供Spark、Flink等批处理任务的DAG执行调度和流处理任务的状态监测调度，并具有重复应用检测、大内存应用检测等功能。服务基于Spring Boot 2.0开发，打包后即可运行。 [Github] [Gitee] 部署 1.准备 Java 1.8+ Mysql 5.1.0+ 下载项目或git clone项目为解决 github README.md 图片无法正常加载的问题，请在hosts文件中加入相关域名解析规则，参考： hosts 2.安装创建数据库：big-whale 运行数据库脚本： big-whale.sql 根据Spring Boot环境，配置相关数据库账号密码，以及SMTP信息配置： big-whale.properties 配置项说明 ssh.user: 拥有脚本执行权限的ssh远程登录用户名（平台会将该用户作为统一的脚本执行用户） ssh.password: ssh远程登录用户密码 dingding.enabled: 是否开启钉钉告警 dingding.watcher-token: 钉钉公共群机器人Token yarn.app-memory-threshold: Yarn应用内存上限（单位：MB），-1禁用检测 yarn.app-white-list: Yarn应用白名单列表

Spark代码中设置appName在client模式和cluster模式中不一样问题

阅读更多关于 Spark代码中设置appName在client模式和cluster模式中不一样问题

问题 Spark应用名在使用yarn-cluster模式提交时不生效，在使用yarn-client模式提交时生效，如图1 所示，第一个应用是使用yarn-client模式提交的，正确显示我们代码里设置的应用名Spark Pi，第二个应用是使用yarn-cluster模式提交的，设置的应用名没有生效。图1 提交应用回答导致这个问题的主要原因是，yarn-client和yarn-cluster模式在提交任务时setAppName的执行顺序不同导致，yarn-client中setAppName是在向yarn注册Application之前读取，yarn-cluser模式则是在向yarn注册Application之后读取，这就导致yarn-cluster模式设置的应用名不生效。解决措施：在spark-submit脚本提交任务时用--name设置应用名和sparkconf.setAppName(appname)里面的应用名一样。比如我们代码里设置的应用名为Spark Pi，用yarn-cluster模式提交应用时可以这样设置，在--name后面添加应用名，执行的命令如下： ./spark-submit -- class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --name

工具篇-Flink里边的一些坑

阅读更多关于工具篇-Flink里边的一些坑

1. 自定义Sink写入hbase？使用的是原生的hbase客户端，可以自己控制每多少条记录刷新一次。遇到了几个坑导致数据写不到hbase里边去：集群hbase版本和客户端版本不一致（版本1和版本2相互之间会有冲突） Jar包冲突例如protobuf-java版本冲突，常见的是两个关键错误， java.io.IOException: java.lang.reflect. InvocationTargetExceptio n 和 Caused by: java.lang.NoClassDefFoundError: Could not initialize class org.apache.hadoop.hbase .protobuf.ProtobufUtil 。 2. Flink 消费Kafka偏移量 Flink读写Kafka，如果使用Consumer08的话，偏移量会提交Zk，下边这个配置可以写在Conf文件中，提交偏移量的Zk可以直接指定。Consumer09以后版本就不向Zk提交了，Kafka自己会单独搞一个Topic存储消费状态。 1 xxxx08 { 2 bootstrap.servers = "ip:9092" 3 zookeeper.connect = "ip1:2181,ip2/vio" 4 group.id = "group1" 5 auto.commit

Yarn Heap usage growing over time

阅读更多关于 Yarn Heap usage growing over time

来源： https://stackoverflow.com/questions/40312560/yarn-heap-usage-growing-over-time

订阅 yarn