HDFS

大数据(Hive-外部表分区)

本小妞迷上赌 提交于 2020-03-19 20:18:23
3 月,跳不动了?>>> 1:定义 未被external修改的是内部表(MANAGED TABLE),被external修饰的为外部表(EXTERNAL TABLE) 创建外部表语法: create external table person2( id int, name string, hobby array<string>, addr map<string,string> ) row format delimited fields terminated by ',' collection items terminated by '-' map keys terminated by ':' location '/user/person2' ; 2:区别 1)内部表数据由hive自身管理,外部表数据由hdfs来管理 内部表数据存储的位置默认/user/hive/warehouse, 外部表数据存储的位置由用户自己指定 2)删除内部表会直接删除元数据和存储数据 删除外部表仅仅只会删除元数据,HDFS上的文件不会删除。 3:分区表 1)定义语法 create table p1( id int, name string, hobby array<string>, addr map<string,string> ) partitioned by (p_dt string) row

Hive应用:外部表链接内部表

核能气质少年 提交于 2020-03-19 20:14:03
3 月,跳不动了?>>> Hive应用:外部表链接内部表 我们知道,Hive的外部表可以连接HDFS中的任何目录的数据,那么Hive的外部表是否可以连接本身的内部表的数据呢? 答案是肯定,当然可以连接,因为Hive本身的数据就是存放在HDFS特定的目录中的,在Hive中创建外部表,关联内部表,方式和关联HDFS的目录是一样的。此处的目录只要换成Hive内部表在HDFS中的存储位置即可,注意目录的路径不要写错了。 例如:如下图的Hive目录结构,创建一个tbl_custom的外部表。 在另一个库中使用如下的建表语句: create external table Tbl_Custom(CustomID int,AreaID int,Name string,Gender int) row format delimited fields terminated by '\t' location 'hdfs://hadoop01:9000/user/hive/warehouse/beijing.db/tbl_custom'; 这样就可以在另外一个库中使用内部表的数据了。 如果你有一个业务场景,是需要连接多个MySQL数据库进行数据查询,那么你就可以备份这几个数据库到Hive或者HDFS中,然后利用外部表,将需要表格数据连接到一个库中进行操作。 下一篇: Hive应用:外部分区表 来源:

认识大数据以及hadoop

梦想与她 提交于 2020-03-18 13:17:35
1、BigData是什么? 大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。 具体来说,比如电商网站的用户浏览行为记录、购买行为记录,社交网站的用户行为数据记录、用户关系数据,通信行业的用户通信行为记录、上网行为记录,APP应用的用户行为数据,交通部门的海量探测数据、路况监控数据,政府部门的民生数据,舆情数据等,由于用户基数大,因而形成的数据动辄日增数百T甚至P级别数据,这些都是真实、物化、具体的大数据。 IDC(International Data Corporation) 描述了大数据的四大特征,俗称4V(volumes、velocity、variety、value) ,4V也被广泛认可为大数据的最基本内涵。 2、什么是大数据技术? 大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

第一篇日志

…衆ロ難τιáo~ 提交于 2020-03-18 01:53:31
题目暂时没想好,昨晚整到两点多,简单的问题还是要花时间的,主要是这块自己平时太生疏。一个小失误(equals和==)居然没想到。 最近几天在忙着配置hadoop 以及试着跑一些示例程序,但对于map ruduce和hadoop资源调度的原理还不甚明了。昨天由于配置文件一个单词拼写(mapred & maperd)的错误导致浪费了一天的时间,血的教训啊!在同学的协助下,把MySQL连上了,从里面读数据,写到hdfs中。 现在有几个问题: 集群里的hosts 写的是局域网ip 还是外网ip Hadoop:could only be replicated to 0 nodes, instead of 1 这个错误格式化namenode的hdfs都没什么用 暂时还没找到解决方法 下一步 了解资源调度机制 了解Hbase Hive连接的操作 来源: https://www.cnblogs.com/pkuas/archive/2012/02/15/2352551.html

Mysql 流增量写入 Hdfs(一) --从 mysql 到 kafka

╄→гoц情女王★ 提交于 2020-03-17 23:10:51
某厂面试归来,发现自己落伍了!>>> 一. 概述 在大数据的静态数据处理中,目前普遍采用的是用 Spark + Hdfs (Hive / Hbase) 的技术架构来对数据进行处理。 但有时候有其他的需求,需要从其他不同数据源不间断得采集数据,然后存储到 Hdfs 中进行处理。而追加(append)这种操作在 Hdfs 里面明显是比较麻烦的一件事。所幸有了 Storm 这么个流数据处理这样的东西问世,可以帮我们解决这些问题。 不过光有 Storm 还不够,我们还需要其他中间件来协助我们,让所有其他数据源都归于一个通道。这样就能实现不同数据源以及 Hhdfs 之间的解耦。而这个中间件 Kafka 无疑是一个很好的选择。 这样我们就可以让 Mysql 的增量数据不停得抛出到 Kafka ,而后再让 storm 不停得从 Kafka 对应的 Topic 读取数据并写入到 Hdfs 中。 二. 基本知识 2.1 Mysql binlog 介绍 binlog 即 Mysql 的二进制日志。它可以说是 Mysql 最重要的日志了, 它记录了所有的DDL和DML(除了数据查询语句)语句,以事件形式记录 ,还包含语句所执行的消耗的时间,MySQL的二进制日志是事务安全型的。 上面所说的提到了 DDL 和 DML ,可能有些同学不了解,这里顺便说一下: DDL

Hadoop纯理论bb,纸上谈兵

◇◆丶佛笑我妖孽 提交于 2020-03-17 09:13:16
大数据基础 定义 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。 大数据的意义不在于数量,在于挖掘数据的价值,探究海量数据间的相关性 基本特征 容量(Volume) :数据的大小决定所考虑的数据的价值和潜在的信息 种类(Variety) :数据类型的多样性 速度(Velocity) :获得数据的速度 可变性(Variability) :妨碍处理和有效管理数据的过程 真实性(Veracity) :数据的质量 复杂性(Complexity) :数据量巨大,来源多渠道 价值(Value) :合理运用大数据,以低成本创造高价值 Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。 它的设计是从单个服务器扩展到千数个机器,每个提供本地计算和存储。 Hadoop框架实现分布式最核心的设计: HDFS 和 MapReduce 其中HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。以及在Hadoop2.x内,YARN框架实现了分布式资源调度。 Hadoop 1.0到Hadoop 2.0架构的变化图如下

Safemode in Hadoop hdfs

北慕城南 提交于 2020-03-16 18:10:44
问题 I have started my hadoop using the following command sbin/start-dfs.sh When i browse in the hadoop web interface. i get: safemode is on. So, i have leave the safemode by entering : hdfs dfsadmin -safemode leave. Now i can create and delete directories. the problem is when i try to upload a file, it doesnt allow me to upload. why? I have used the following command bin/hdfs fsck / And the output is : healthy . How can i resolve this? 来源: https://stackoverflow.com/questions/60504475/safemode-in

Safemode in Hadoop hdfs

萝らか妹 提交于 2020-03-16 18:08:21
问题 I have started my hadoop using the following command sbin/start-dfs.sh When i browse in the hadoop web interface. i get: safemode is on. So, i have leave the safemode by entering : hdfs dfsadmin -safemode leave. Now i can create and delete directories. the problem is when i try to upload a file, it doesnt allow me to upload. why? I have used the following command bin/hdfs fsck / And the output is : healthy . How can i resolve this? 来源: https://stackoverflow.com/questions/60504475/safemode-in

Safemode in Hadoop hdfs

不问归期 提交于 2020-03-16 18:08:12
问题 I have started my hadoop using the following command sbin/start-dfs.sh When i browse in the hadoop web interface. i get: safemode is on. So, i have leave the safemode by entering : hdfs dfsadmin -safemode leave. Now i can create and delete directories. the problem is when i try to upload a file, it doesnt allow me to upload. why? I have used the following command bin/hdfs fsck / And the output is : healthy . How can i resolve this? 来源: https://stackoverflow.com/questions/60504475/safemode-in

hdfs高可用性(HDFS High Availability)

五迷三道 提交于 2020-03-16 06:47:22
Hadoop2.2.0中HDFS的高可用性实现原理 http://www.iteblog.com/archives/833 官方文档 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-High-Availability-Guide/cdh4hag_topic_2_1.html http://kicklinux.com/quorum-based-storage-ha/ 我自己参考官方文档,翻译总结CDH4中HDFS高可用性的实现原理 CDH4 主要采用两种方案: Quorum-based Storage Shared storage using NFS 注:Cloudera建议采用Quorum-based Storage来作为HA的解决方案,因为Shared storage using NFS只在CDH4中支持,CDH5不支持。如果想从NFS转换成Quorum-based Storage,请看 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-High-Availability-Guide/cdh4hag_topic_2_7.html#concept_ddg_ryd