HDFS | 易学教程

大数据之Linux早课10.16

阅读更多关于大数据之Linux早课10.16

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 1.历史命令是什么?执行第66行 2.敲错了命令，干了坏事，我们应该怎么办 3.删除文件夹命令参数 4.创建及联文件夹 5.创建文件 6.vi哪三种模式 7.vi清空一个文件的命令 8.mv和cp什么区别 9.软连接命令是什么 10.sudo和su什么区别 11.当输入一个命令，not found，你认为该怎么办 12.vi编辑编辑了一半，发现编辑错了，不想编辑了，不保存当前的内容，请问尾行输入什么? 13. tar解压压缩命令参数分别是什么 14.zip后缀，压缩和解压命令分别是什么 15.cd命令，切换上一层和上一次目录参数分别是什么 16.比如zip unzipz是需要手工安装的，那么安装RPM包的命令是什么 17.RPM卸载哪两种，其中一种卸载不依赖检查 18.scp 远程路径本地路径，这样可以吗 19.出现需要使用大R的命令，只有哪两种? 20.那么hdfs有没有这两个命令? 来源： oschina 链接： https://my.oschina.net/u/3862440/blog/2247784

分布式计算框架MapReduce

阅读更多关于分布式计算框架MapReduce

MapReduce概述 MapReduce源自Google的MapReduce论文，论文发表于2004年12月。Hadoop MapReduce可以说是Google MapReduce的一个开源实现。MapReduce优点在于可以将海量的数据进行离线处理，并且MapReduce也易于开发，因为MapReduce框架帮我们封装好了分布式计算的开发。而且对硬件设施要求不高，可以运行在廉价的机器上。MapReduce也有缺点，它最主要的缺点就是无法完成实时流式计算，只能离线处理。 MapReduce属于一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。 MapReduce官方文档地址如下： https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial

hdfs yarn kill 任务

阅读更多关于 hdfs yarn kill 任务

hdfs kill 任务先说结论 hdfs 上的hadoop 任务直接在终端ctrl+C是不行的任务一旦提交到集群上就会继续运行所以应该使用 yarn application -kill application_1571706429831_129599 这个命令来kill job 起因使用hadoop distcp 提交了一个拷贝任务中途用 ctrl+c 取消了然后去删除拷贝了一半的结果结果发现在hdfs上删除了之后目录仍然存在后来在任务管理页面上看到仍然有多个distcp任务在运行说明是这些distcp任务在删除目录之后仍然在运行并写入删除后的目录导致这个目录被重新创建所以表现为一直删不掉目录。这个可以从目录中最末端的文件hash中看出有一些新出现的文件说明是删除后写入的感觉运维大哥给我找bug 来源： CSDN 作者：随机??? 链接： https://blog.csdn.net/BUPT_SS4G/article/details/103712746

hadoop 04 一 HA高可用配置

阅读更多关于 hadoop 04 一 HA高可用配置

HA高可用配置一、简述 ------------------- high availability,高可用. 两个名称节点，一个active(激活态)，一个是standby(slave待命),slave节点维护足够多状态以便于容灾。和客户端交互的active节点,standby不交互. 两个节点都和JN守护进程构成组的进行通信。数据节点配置两个名称节点，分别报告各自的信息。同一时刻只能有一个激活态名称节点。脑裂:两个节点都是激活态。为防止脑裂，JNs只允许同一时刻只有一个节点向其写数据。容灾发生时，成为active节点的namenode接管向jn的写入工作。二、硬件资源 -------------- 名称节点: 硬件配置相同。 JN节点 : 轻量级进程，至少3个节点,允许挂掉的节点数 (n - 1) / 2. 不需要再运行辅助名称节点。三、配置细节 --------------- 0.centos001和centos006具有完全一致的配置，尤其是.ssh（免密登陆） 1.配置nameservice [hdfs-site.xml] <property> <name>dfs.nameservices</name> <value>mycluster</value> </property> 2.dfs.ha.namenodes.[nameservice ID]

hive和hbase

阅读更多关于 hive和hbase

hive：适合用来进行分析统计； hbase:用来进行实时查询。 hive的应用答题相当于mysql: 切换到当前数据库：hive:use database; 创建数据库命令：hive:create database financials; 删除数据库时，不允许删除的数据库中有数据，若有数据则会报错。这是可以用加有CASCADE关键字的命令删除； hive:drop database databasename cascade; 或者：drop database if exists databasename cascade; 查看当前数据库中的表：hive:show tables in databasename; 或者:hive:show tables like 'h*'; 查看所有的数据库。 hive> show databases ; hive> describe databases DbName; --查看数据库信息 truncate table table_a ; 清空一个表的数据(hive 0.11.0 支持) ̶ 通过Alter关键字修改DB相关信息 hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba'); 首先Hive有内部表，和External Table外部表两种表的概念

Hadoop阅读笔记（一）——强大的MapReduce

阅读更多关于 Hadoop阅读笔记（一）——强大的MapReduce

前言：来园子已经有8个月了，当初入园凭着满腔热血和一脑门子冲动，给自己起了个响亮的旗号“大数据小世界”，顿时有了种世界都是我的，世界都在我手中的赶脚。可是......时光飞逝，岁月如梭~~~随手一翻自己的博客，可视化已经快占据了半壁江山，思来想去，还是觉得把一直挂在嘴头，放在心头的大数据拿出来说说，哦不，是拿过来学学。入园前期写了有关 Nutch 和 Solr 的自己的一些阅读体会和一些尝试，挂着大数据的旗号做着爬虫的买卖。可是，时间在流失，对于大数据的憧憬从未改变，尤其是Hadoop一直让我魂牵梦绕，打今儿起，开始着手自己的大数据系列，把别人挤牙膏的时间用在学习上，收拾好时间，收拾好资料，收拾好自己，重返Hadoop。以下是对于大数据学习的一种预期规划：主要理论指导材料：Hadoop实战2 主要手段：敲代码、结合API理解预期目标：深入了解Hadoop，能为我所用正文：记得去年还在学校写小论文的时候，我花了一天的时间，懵懵懂懂的把Hadoop的环境给打起来了，今年出来接触社会，由于各种原因，自己又搭了几次伪分布式的环境，每次想学习Hadoop的心态好比每次背单词，只要一背单词，总是又从“abandon”开始背起。所以环境这块就不多说了，网上这样的帖子早已烂大街（因为Hadoop版本更新很快，目前应该是到2.6版本了，所以博文肯定一直在推陈出新）。用的Ubuntu12

mlflow安装问题

阅读更多关于 mlflow安装问题

1.创建文件夹 mkdir mlwork cd mlwork 2. 创建一个干净的venv环境 [hdfs@xydwtest01 ~/mlwork]$ source ~/miniconda3/bin/activate (root) [hdfs@xydwtest01 ~/mlwork]$ virtualenv -bash: virtualenv: command not found 没有找到 virtualenv，需要安装virtualenv pip install virtualenv virtualenv安装成功，继续 (root) [hdfs@xydwtest01 ~/mlwork]$ virtualenv --no-site-packages venv Using base prefix '/home/hdfs/miniconda3' New python executable in /home/hdfs/mlwork/venv/bin/python /home/hdfs/mlwork/venv/bin/python: error while loading shared libraries: libpython3.6m.so.1.0: cannot open shared object file: No such file or directory ERROR: The

Hadoop学习笔记—20.网站日志分析项目案例

阅读更多关于 Hadoop学习笔记—20.网站日志分析项目案例

1.1 项目来源　　本次要实践的数据日志来源于国内某技术学习论坛，该论坛由某培训机构主办，汇聚了众多技术学习者，每天都有人发帖、回帖，如图1所示。图1 项目来源网站-技术学习论坛　　本次实践的目的就在于通过对该技术论坛的 apache common 日志进行分析，计算该论坛的一些关键指标，供运营者进行决策时参考。 PS：开发该系统的目的是为了获取一些业务相关的指标，这些指标在第三方工具中无法获得的； 1.2 数据情况　　　该论坛数据有两部分：　　（1）历史数据约56GB，统计到2012-05-29。这也说明，在2012-05-29之前，日志文件都在一个文件里边，采用了追加写入的方式。　　（2）自2013-05-30起，每天生成一个数据文件，约150MB左右。这也说明，从2013-05-30之后，日志文件不再是在一个文件里边。　　图2展示了该日志数据的记录格式，其中每行记录有5部分组成：访问者IP、访问时间、访问资源、访问状态（HTTP状态码）、本次访问流量。图2 日志记录数据格式二、关键指标KPI 2.1 浏览量PV 　　（1）定义：页面浏览量即为PV(Page View)，是指所有用户浏览页面的总和，一个独立用户每打开一个页面就被记录1 次。　　（2）分析：网站总浏览量，可以考核用户对于网站的兴趣，就像收视率对于电视剧一样。但是对于网站运营者来说，更重要的是

Hadoop简介

阅读更多关于 Hadoop简介

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Hadoop是什么？ Hadoop 是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念———Hadoop生态圈。 Hadoop的优势高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop的某个计算元素或存储出现故障，也不会丢失数据。高扩展性：在集群间分配任务数据，可方便扩展数以千计的节点。高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。高容错性：能够自动将任务重新分配。低成本：Hadoop项目是开源的，项目软件的成本因此会大大降低。 Hadoop的组成 Common ：为 Hadoop 其他模块提供支持的基础模块。 HDFS (Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统，异步复制，一次写入多次读取，主要负责存储。 MapReduce 为分布式计算框架，包含map(映射)和 reduce(归约)过程，负责在 HDFS 上进行计算。 YARN ：任务分配和集群资源管理框架。 Hadoop的生态圈 HBase ：HBase（Hadoop Database）是一个高可靠性、高性能、面向列

FTP vs SFTP vs HDFS vs NTFS vs EXT2, EXT3 [closed]

阅读更多关于 FTP vs SFTP vs HDFS vs NTFS vs EXT2, EXT3 [closed]

问题 Closed. This question is off-topic. It is not currently accepting answers. Want to improve this question? Update the question so it's on-topic for Stack Overflow. Closed 5 years ago . I just want to know how these protocols and file systems are related with each other, where each one is used. FTP vs SFTP vs HDFS vs NTFS vs EXT2, EXT3 any help would be appreciated. Thanks. 回答1: FTP is an old File Transfer Protocol, similar to HTTP but specialized for moving large files. sftp is a totally

订阅 HDFS