Hadoop

linux配置本地yum源

送分小仙女□ 提交于 2020-11-13 09:04:37
1.挂载光盘 [root@hadoop ~]# mkdir /mnt/ centos #创建挂载点 [root@hadoop ~]# mount /dev/cdrom /mnt/centos/ #挂载光盘 mount: /dev/sr0 is write- protected , mounting read- only [root@hadoop ~ ]# mount #查看是否光盘已经挂载到系统上 ... /dev/sr0 on /mnt/ centos type iso9660 (ro,relatime) #显示这一行说明挂载成功 [root@hadoop ~]# cd /mnt/centos/Packages/ [root@hadoop Packages]# ll #显示所有的本地rpm包 2.创建本地yum目录 [root@hadoop Packages]# mkdir / rpms_yum [root@hadoop Packages]# ll / #检查根目录下是否已创建rpms_yum目录 3.将Packages下的所有包复制到本地yum目录,可能会耗费一点时间 [root@hadoop Packages]# cp * /rpms_yum 4.复制结束后进入到/rpms_yum目录安装createrepo软件 方式一: [root@hadoop Packages]# cd

通过phoenix导入数据到hbase出错记录

廉价感情. 提交于 2020-11-13 04:03:59
解决方法1 错误如下 2019 - 08 - 26 10 : 03 : 56 , 819 [hconnection- 0x7b9e01aa -shared--pool11069-t114734] WARN org.apache.hadoop.hbase.ipc.CoprocessorRpcChannel - Call failed on IOException org.apache.hadoop.hbase.exceptions.UnknownProtocolException: org.apache.hadoop.hbase.exceptions.UnknownProtocolException: No registered coprocessor service found for name ServerCachingService in region TABLE_RESULT,\x012019- 05 - 12 \x00037104581382, 1566564239929 .dcd3d414bc567586049d3c71aa74512d. at org.apache.hadoop.hbase.regionserver.HRegion.execService(HRegion.java: 8062 ) at org.apache.hadoop.hbase

想当程序员中间万元户吗?这几个MySQL核心技术点必须要搞懂!

。_饼干妹妹 提交于 2020-11-12 09:29:37
前言 MySQL 是业务后台系统经常用到的结构化数据库。 掌握 MySQL 相关知识是研发人员必备的能力。 与此同时,在面试过程当中,MySQL 的知识点也是经常被当做面试题目,以此来考量候选人的能力。 随着业务量的增加,对于 MySQL 性能优化的要求也越来越高, 而索引方面是性能优化重点考虑的方向,所以深入理解 MySQL 索引对于未来的优化起到很重要的作用。 深入理解MySQL底层实现 MySQL 的初始、组成 MySQL 的常用引擎(InnoDB、Myisam、MariaDB) 数据存储原理 数据结构 MySQL 数据结构 MySQL 的优化 来自一线大厂高频面试题 唯一索引比普通索引快吗, 为什么 MySQL查询缓存有什么弊端, 应该什么情况下使用, 8.0版本对查询缓存有什么变更. MySQL怎么恢复半个月前的数据 做过哪些MySQL索引相关优化 一千万条数据的表, 如何分页查询 订单表数据量越来越大导致查询缓慢, 如何处理 简要说一下数据库范式 MySQL事务的隔离级别, 分别有什么特点 上面的一些大厂高频面试题以及答案已经整理成文档,需要领取的同学可以关注我, 点我 免费领取 哦! 来自一线互联网公司总结的真题面试收录 一张表,里面有 ID 自增主键,当 insert 了 17 条记录之后,删除了第 15,16,17 条记录,再把 Mysql 重启,再 insert

使用 Iceberg on Kubernetes 打造新一代云原生数据湖

大城市里の小女人 提交于 2020-11-11 19:49:30
背景 大数据发展至今,按照 Google 2003年发布的《The Google File System》第一篇论文算起,已走过17个年头。可惜的是 Google 当时并没有开源其技术,“仅仅”是发表了三篇技术论文。所以回头看,只能算是揭开了大数据时代的帷幕。随着 Hadoop 的诞生,大数据进入了高速发展的时代,大数据的红利及商业价值也不断被释放。现今大数据存储和处理需求越来越多样化,在后 Hadoop 时代,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,成了企业构建大数据生态的一个重要方向。怎样快速、一致、原子性地在数据湖存储上构建起 Data Pipeline,成了亟待解决的问题。并且伴随云原生时代到来,云原生天生具有的自动化部署和交付能力也正催化这一过程。本文就主要介绍如何利用 Iceberg 与 Kubernetes 打造新一代云原生数据湖。 何为 Iceberg Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table. Apache Iceberg 是由

Java/后端学习路线

我们两清 提交于 2020-11-11 04:38:17
前 言 这期我想写很久了,但是因为时间的原因一直拖到了现在,我以为一两天就写完了,结果从构思到整理资料,再到写出来用了差不多一周的时间吧。 你们也知道丙丙一直都是创作鬼才来的,所以我肯定不会一本正经的写,我想了好几个切入点,最后决定用一个 完整的电商系统 作为切入点,带着大家看看,我们需要学些啥,我甚至还收集配套视频和资料, 暖男 石锤啊,这期是呕心沥血之作, 不要白嫖 了。 正文 在写这个文章之前,我花了点时间,自己臆想了一个电商系统,基本上算是麻雀虽小五脏俱全,我今天就用它开刀,一步步剖析,我会讲一下我们可能会接触的技术栈可能不全,但是够用,最后给个学习路线。 Tip :请多欣赏一会,每个点看一下,看看什么地方是你接触过的,什么技术栈是你不太熟悉的,我觉得还算是比较全的,有什么建议也可以留言给我。 不知道大家都看了一下没,现在我们就要庖丁解牛了,我从上到下依次分析。 前端 你可能会会好奇,你不是讲后端学习路线嘛,为啥还有前端的部分,我只能告诉你, 傻瓜 ,肤浅。 我们可 不能闭门造车 ,谁告诉你后端就不学点前端了? 前端现在很多也了解后端的技术栈的,你想我们去一个网站,最先接触的,最先看到的是啥? 没错就是前端,在大学你要是找不到专门的前端同学,去做系统肯定也要自己顶一下前端的,那我觉得最基本的技术栈得熟悉和了解吧,丙丙现在也是偶尔会开发一下我们的管理系统主要是 VUE 和

Canal+Camus快速采集MySQL Binlog到数据仓库

独自空忆成欢 提交于 2020-11-11 00:44:06
点击上方 蓝色字体 ,选择“ 设为星标 ” 回复”资源“获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据 真好玩 点击右侧关注,大数据真好玩! 数据仓库的同步方法 我们的数据仓库长久以来一直使用天级别的离线同步方法:采用Sqoop或DataX按天定时获取各个MySQL表的全量或增量数据,然后载入到Hive里对应的各个表中。这种方法门槛低,容易操作,在数仓建设阶段能够快速启动。但是随着时间的推移,它暴露出了一些缺点: 从MySQL获取数据只能靠select,如果一次select数据量过大,会造成慢查询,甚至影响线上业务; 随着业务量的增长和新业务的加入,数据量会相应增加,离线同步一次的耗时会越来越长; 增量同步方式无法检测到MySQL中被delete掉的记录,如果没有时间戳字段的话,也较难检测到被update的记录。 所以,我们最近致力于按照变动数据获取(Change Data Capture,CDC)的方式改造我们的数仓,分三步走: 首先订阅MySQL库的Binlog,将其存储到临时表中; 然后对需要入库的表一次性制作快照,并将存量数据导入Hive; 最后基于存量数据和Binlog记录的变动进行合并,还原出与业务库相同的数据。 本文要说的就是第一步的实现方案。我们采用阿里的开源组件Canal来接入MySQL Binlog,并投递到Kafka

你都知道吗?关于ECS 运维指南之 Windows系统诊断!

跟風遠走 提交于 2020-11-10 18:39:29
今天跟大家分享的是关于ECS 运维指南之 Windows系统诊断, 文末下拉获取网盘链接 windows 启动问题排查 1.1 windows 启动失败常用排查方案 1.2 安装补丁后服务器启动卡住 1.3 重启卡在“正在应用计算机设置”? 6 步排查搞定 1.4 Windows 控制台登录不能切换用户 1.5 启动报错“An operating system wasn’t found” 1.6 windows 重置密码不生效 1.7 启动报错“No bootable device” 2.windows 激活问题排查 2.1激活常用排查方案 2.2 window 机器 ping 不通 KMS 服务器 2.3 windows 激活报错 0xC004F074 2.4 windows 激活报错 0x80070020 或 0x80041010 3远程 / 网络相关问题排查 3.1 windows 远程问题的 3 个排查方案 3.2 windows 网络状态显示 X,看不到网卡信息 3.3 Windows 网卡驱动丢失,手动安装驱动 4.windows 更新问题排查 4.1 windows 更新常用的 5 个排查方案 4.2查找更新时报错? 2 个方案解决 4.3“此更新不适用于你的计算机”的 3 个排查方法 4.4更新安装报错的 3 个实战分析 5.windows 服务问题排查 5

浅谈字节最新开源联邦机器学习平台Fedlearner

折月煮酒 提交于 2020-11-10 07:41:14
最近联邦机器学习越来越火,字节也正式对外宣讲开源了联邦机器学习平台Fedlearner。这次头条开源的 Fedlearner 与我之前分析过得华为、微众的联邦机器学习平台有什么不同呢?主要体现在以下几个方面: 产品化: Fedlearner 的代码里有大量的js、Html模块,也是第一次让我们可以直观的看到联邦机器学习平台大概是什么样的,如果做成产品需要长成什么样。 业务多样化:之前华为、微众更多地强调联邦机器学习在风控业务的落地。头条开始强调联邦学习在推荐、广告等业务中的落地,并且给了很明确的数据,在某教育业务板块广告投放效果增加209% 可输出性:如果说之前的联邦机器学习平台更多地从理论层面做介绍,这一次字节的Fedlearner强调了可输出性,比如为了保持联邦建模双方的环境一致性,通过K8S的部署模式快速拉起和管理集群。这是为ToB对外输出服务做技术准备 下面分别介绍下Fedlearner在这三方面的一些工作。 Fedlearner产品化工作 以推荐广告业务为例,联邦机器学习平台的广告主和平台方应该各自管理一套模型展示服务和模型训练服务。 需要有两套协议保证客户的联邦建模,一套是数据一致性问题。比如在纵向联邦学习场景下,用户在页面上点击了某个广告,平台方和广告主各自会捕获一部分日志。如何能实时的保证这两部分捕获的日志的一致性,并且拼接成训练样本,需要一套实时数据样本拼接协议。