分区表

第4章 DDL数据定义

瘦欲@ 提交于 2019-11-29 07:06:38
第 4 章 DDL 数据定义 4.1 创建数据库 1 )创建一个数据库,数据库在 HDFS 上的默认存储路径是 /user/hive/warehouse/*.db 。 hive (default)> create database db_hive; 2 )避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法) hive (default)> create database db_hive; FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Database db_hive already exists hive (default)> create database if not exists db_hive; 3 )创建一个数据库,指定数据库在 HDFS 上存放的位置 hive (default)> create database db_hive2 location '/db_hive2.db'; 4.2 查询数据库 4.2.1 显示数据库   1 .显示数据库 hive> show databases;   2 .过滤显示查询的数据库 hive> show databases like 'db_hive*'; OK db_hive

sqlserver 创建分区表

空扰寡人 提交于 2019-11-29 04:50:10
我们知道很多事情都存在一个分治的思想,同样的道理我们也可以用到数据表上,当一个表很大很大的时候,我们就会想到将表拆 分成很多小表,查询的时候就到各个小表去查,最后进行汇总返回给调用方来加速我们的查询速度,当然切分可以使用横向切分,纵向 切分,比如我们最熟悉的订单表,通常会将三个月以外的订单放到历史订单表中,这里的三个月就是将订单表进行切分的依据。 1 需求说明 将数据库Demo中的表按照日期字段进行水平分区分表。要求数据文件按一年一个文件存储,且分区的分割点会根据时间的增长自动添加(例如现在是2017年1月1日,将其作为一个分割点,即将2017年1月1日之前的数据存储到数据文件A中,将2017年1月1日的之后的数据存储到数据文件B中;当时间到2018年1月1日时,自动将2018年1月1日添加为一个新的分区分割点,并将2017年1月1日至2018年1月1日的数据存储在数据文件B中,将2018年1月1日之后的数据存储在一个新的数据文件C中,以此类推)。 2 实现思路 2.1 分区原理 要实现这一功能,首先要了解数据库对水平分区表进行分区存储的原理。 所谓水平分区分表,就是把逻辑上的一个表,在物理上按照你指定的规则分放到不同的文件里,把一个大的数据文件拆分为多个小文件,还可以把这些小文件放在不同的磁盘下。这样把一个大的文件拆分成多个小文件,便于我们对数据的管理。 2.2 水平分区优点 l

存储管理—磁盘基础

只愿长相守 提交于 2019-11-28 23:01:06
一、设备文件的分类 在Linux下的/dev目录中有大量的设备文件,根据设备文件的不同,又分为字符设备文件和块设备文件。 字符设备文件的存取是以字符流的方式来进行的,一次传送一个字符。常见的有打印机,终端(TTY)、绘图仪和磁带设备等等,字符设备文件有时也被称为 " raw " 设备文件。 块设备文件是以数据块的方式来存取的,最常见的设备就是磁盘。系统通过块设备文件存取数据的时候,先从内存中的buffer中读或写数据。而不是直接传送数据到物理磁盘。这种方式有效的提高了磁盘的I/O性能。 二、MBR和GPT MBR(Master Boot Record) :即硬盘的主引导记录分区列表,硬盘的0柱面、0磁头、1扇区称为主引导扇区(也叫主引导记录MBR)。它由三个部分组成,主引导程序、硬盘分区表DPT和硬盘有效标志(55AA)。在总共512字节的主引导扇区里,主引导程序(boot loader)占446个字节,第二部分是Partition table区(分区表),即DPT,占64个字节,硬盘中分区有多少以及每一分区的大小都记在其中。第三部分是magic number,占2个字节,固定为55AA。 GPT(GUID Partition Table) :即全局唯一标识分区列表,是一个物理硬盘的分区结构。它用来替代BIOS中的主引导记录分区表(MBR)。 传统BIOS主要支持MBR引导

hive分区表中表字段操作

不打扰是莪最后的温柔 提交于 2019-11-28 15:26:53
1. hive分区表中新增字段 alter table table_name add columns (column_new_name column_new_type [comment 'comment']); -- 实例 alter table db.own_cust add columns (login_cnt int comment '登录次数', logintime string comment '登录时间'); 2. hive中修改字段名、字段类型、字段顺序 # hive中,只能先新增字段后,再进行排序操作。 ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name] [CASCADE|RESTRICT]; -- 实例1(修改列名) 来源: https://www.cnblogs.com/tianxiong/p/11412378.html

testdisk修复磁盘文件

[亡魂溺海] 提交于 2019-11-28 11:23:04
使用testdisk,分析之后,使用;P ,list文件,然后使用如下方法恢复文件 Use Right to change directory, h to hide Alternate Data Stream q to quit, : to select the current file, a to select all files C to copy the selected files, c to copy the current file 数据恢复利器-Testdisk - - 数据恢复利器-Testdisk 今天我要给大家介绍的主角是 Testdisk 首先, Testdisk 是一个强大的免费的跨平台的数据恢复工具,根据它的 官网 上的简介,这款软件主要被设计用于恢复丢失的分区以及修复那些由于人为或者病毒等原因导致分区表错误而无法启动系统的问题。 除此之外,Testdisk更多的特性大家可以参考官方列出的功能列表: TestDisk can Fix partition table, recover deleted partition Recover FAT32 boot sector from its backup Rebuild FAT12/FAT16/FAT32 boot sector Fix FAT tables Rebuild NTFS boot sector

Spark操作Hive分区表

烂漫一生 提交于 2019-11-28 07:56:53
原作者写的比较清楚了,特别是DDL建了表后,又用Spark向表里写数据常常写不进去,会报异常。 原文地址: https://dongkelun.com/2018/12/04/sparkHivePatition/ 前言 前面学习总结了 Hive分区表 ,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插入数据,并记录一下遇到的问题以及如何解决。 1、Spark创建分区表 只写主要代码,完整代码见附录 val data = Array(("001", "张三", 21, "2018"), ("002", "李四", 18, "2017")) val df = spark.createDataFrame(data).toDF("id", "name", "age", "year") //可以将append改为overwrite,这样如果表已存在会删掉之前的表,新建表 df.write.mode("append").partitionBy("year").saveAsTable("new_test_partition") 1 2 3 4 然后在Hive命令行里看一下,新建的表是否有分区字段year 用命令 desc new_test_partition; 1 或 show create

SqlServer分区表概述(转载)

蓝咒 提交于 2019-11-28 05:42:54
SqlServer分区表概述(转载) 什么是分区表 一般情况下,我们建立数据库表时,表数据都存放在一个文件里。 但是如果是分区表的话,表数据就会按照你指定的规则分放到不同的文件里,把一个大的数据文件拆分为多个小文件,还可以把这些小文件放在不同的磁盘下由多个cpu进行处理。这样文件的大小随着拆分而减小,还得到硬件系统的加强,自然对我们操作数据是大大有利的。 所以大数据量的数据表,对分区的需要还是必要的,因为它可以提高select效率,还可以对历史数据经行区分存档等。但是数据量少的数据就不要凑这个热闹啦,因为表分区会对数据库产生不必要的开销,除啦性能还会增加实现对象的管理费用和复杂性。 截止到SQL Server 2016,一张表或一个索引最多可以有 15,000 个分区 跟着做,分区如此简单 先跟着做一个分区表(分为11个分区),去除神秘的面纱,然后咱们再逐一击破各个要点要害。 分区是要把一个表数据拆分为若干子集合,也就是把把一个数据文件拆分到多个数据文件中,然而这些文件的存放可以依托一个文件组或这多个文件组,由于多个文件组可以提高数据库的访问并发量,还可以把不同的分区配置到不同的磁盘中提高效率,所以创建时建议分区跟文件组个数相同。 1.创建文件组 可以点击数据库属性在文件组里面添加 T-sql语法: alter database <数据库名> add filegroup <文件组名

oracle表空间表分区详解(转)

老子叫甜甜 提交于 2019-11-28 05:05:05
oracle表空间表分区详解(转) 此文从以下几个方面来整理关于分区表的概念及操作: 1.表空间及分区表的概念 2.表分区的具体作用 3.表分区的优缺点 4.表分区的几种类型及操作方法 5.对表分区的维护性操作. 表空间及分区表的概念 表空间:是一个或多个数据文件的集合,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间。 分区表:当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该考虑对表进行分区。表进行分区后,逻辑上表仍然是一张完整的表,只是将表中的数据在物理上存放到多个表空间(物理文件上),这样查询数据时,不至于每次都扫描整张表。 表分区的具体作用 Oracle的表分区功能通过改善可管理性、性能和可用性,从而为各式应用程序带来了极大的好处。通常,分区可以使某些查询以及维护操作的性能大大提高。此外,分区还可以极大简化常见的管理任务,分区是构建千兆字节数据系统或超高可用性系统的关键工具。 分区功能能够将表、索引或索引组织表进一步细分为段,这些数据库对象的段叫做分区。每个分区有自己的名称,还可以选择自己的存储特性。从数据库管理员的角度来看,一个分区后的对象具有多个段,这些段既可进行集体管理,也可单独管理,这就使数据库管理员在管理分区后的对象时有相当大的灵活性。但是,从应用程序的角度来看,分区后的表与非分区表完全相同,使用 SQL

Linux-磁盘管理

点点圈 提交于 2019-11-28 03:58:22
/*--> */ /*--> */ 第14章 Linux系统管理-磁盘管理 第14章 Linux系统管理-磁盘管理 1. 磁盘的基本概念 2. 磁盘的基本结构 3. 磁盘的预备知识 4. 磁盘基本分区Fdisk 5. 磁盘基本分区Gdisk 6. 磁盘挂载方式Mount 7. 虚拟内存Swap介绍 8. 磁盘阵列RAID概述 9. 磁盘阵列RAID实战 10. 逻辑卷LVM概述 11. 逻辑卷LVM实践 12. 磁盘常见故障 1. 磁盘的基本概念 01. 什么是磁盘 xxxxxxxxxx ​ 绝大多数人对硬盘都不陌生, 一块小小的硬盘里,就可以存储海量的照片、音乐和电影等,尤其是你们喜爱的各类**动作片。 但如此小的空间,是如何存储那么多信息的呢? ​ x ​ 每个硬盘中心都是一摞高速运转的圆盘,圆盘由一层带磁的微型金属颗粒组成,每个颗粒也被称为一比特,都有自己的磁化程度,用于储存0和1。 ​ xxxxxxxxxx ​ 当记录数据时,硬盘的磁头开始通电,形成强磁场,数据在磁场的作用下转变成电流,使颗粒磁化,从而将信息记录在圆盘上。 xxxxxxxxxx 由海量颗粒组成的信息,就是我们存在硬盘里的数据。 什么是磁盘、软盘、硬盘? xxxxxxxxxx ​ 1.什么是磁盘? ​ 磁盘是指利用磁记录技术存储数据的存储器,是所有硬式存储的统称,如最早出现的软盘,现在的硬盘