信息存储

Hadoop详解 - HDFS - MapReduce - YARN - HA

匿名 (未验证) 提交于 2019-12-02 23:55:01
为什么要有Hadoop? 结构的数据,并且这些海量的数据存储和检索就成为了一大问题。 Hadoop就是为了解决这些问题而出现的。 Hadoop的诞生 Doug Cutting等人就去研究这三篇论文,发现价值巨大,于是Doug Cutting等人在Nutch上实现了GFS和Map-Reduce,使得Nutch的性能飙升。 这三篇论文对应Hadoop的组件: 什么是Hadoop? 技术生态圈 之一。 Hadoop发行版本 1、Apache版本最原始的版本 2、Clodera版本,在大型互联网企业中用的比较多,软件免费,通过服务收费。 3、Hortonworks文档比较好 特点 高可靠: 维护多个副本,假设计算元素和存储出现故障时,可以对失败节点重新分布处理 高扩展: 在集群间分配任务数据,可方便的扩展数以千计的节点 高效性: 并行工作 高容错: 自动保存多个副本,并且能够对失败任务重新分配 Hadoop组成 HDFS:一个高可靠高吞吐量的分布式文件系统 :存储文件的元数据,如:文件名、文件目录结构等信息 DataNode(dn) : 在文件系统存储文件块数据,以及数据的校验和,也就是真正存储文件内容的,只是文件大的时候会切割成一小块一小块的。 SecondayNameNode(2nn) : 用于监控HDFS状态的辅助后台程序,每隔一段时间就获取HDFS的快照,就是备份和监控状态

hive元数据

匿名 (未验证) 提交于 2019-12-02 23:26:52
本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解。 1、存储Hive版本的元数据表(VERSION) 该表比较简单,但很重要。 VER_ID SCHEMA_VERSION VERSION_COMMENT ID主键 Hive版本 版本说明 1 1.1.0 如果该表出现问题,根本进入不了Hive-Cli。比如该表不存在,当启动Hive-Cli时候,就会报错”Table ‘hive.version’ doesn’t exist”。 2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) DBS:该表存储Hive中所有数据库的基本信息,字段如下: 表字段 说明 示例数据 DB_ID 数据库ID 1 DESC 数据库描述 DB_LOCATION_URI 数据HDFS路径 hdfs://193.168.1.75:9000/test-warehouse NAME 数据库名 default OWNER_NAME 数据库所有者用户名 public OWNER_TYPE 所有者角色 ROLE DATABASE_PARAMS:该表存储数据库的相关参数,在CREATE DATABASE时候用WITH DBPROPERTIES(property_name=property_value, …)指定的参数。 表字段 说明

oracle视图

匿名 (未验证) 提交于 2019-12-02 23:06:17
转自:https://www.cnblogs.com/iamliuxin/p/5617799.html 数据库的真实数据都是存在于数据表中,数据表是反映现实世界的实体关系。但是,为现实世界的所有关系创建数据表是不现实的。数据库中的视图解决了这一问题。视图以物理数据未基础,利用更灵活的策略来实现关系。接下来,我们将从: 视图介绍、关系视图的创建和使用、内嵌式图的使用、对象视图的使用、物化视图的使用等几个方面, 来学习视图的知识,并掌握如何创建和使用各种视图,同时对各种视图之间的区别有清晰的了解。 1、视图简介: 1.1 什么是视图 视图是由已经存在的数据,通过一定的运算规则,来获得新的数据集合。这使得用户可以更加灵活的自定义数据集合,视图同时为数据安全性提供了一种控制策略。 (1) 视图的产生 之前一篇博文中讲到了数据表的创建规则,由于遵循第三范式,表在设计时,应当避免数据冗余,而另一方面,使用各种组合数据更加常用,设计规则却禁止为组合数据创建新的数据表。 比如:表employees存储了员工的基本信息,其中包括了员工ID、员工姓名、职位、年龄、地址。表salary存储了员工工资信息,其中包括了工资ID、员工ID、月份、工资、货币种类。 现在需要为财务人员准备一个新的数据集合,该数据集合存储了员工ID、员工姓名、员工年龄、月份及当月工资。很明显,创建新表employee_salary

python黑科技:使用python读取照片中的信息

匿名 (未验证) 提交于 2019-12-02 22:11:45
一、概述 通常通过手机或相机拍摄的图片中影藏了照片的属性信息和拍摄数据,主要通过EXIF(Exchangeable image file format: 可交换图像文件格式) 进行存储这部分信息 该部分信息可以被修改,另外也可通过图像信息影藏方式,往图像中写入特定的信息,可用于信息加密等 二、解析图片拍照时间 环境中需要先安装exifread,采用下面命令进行: pip install exifread 接下来我们便开始动手写代码,代码如下。 遇到python不懂的问题,可以加Python学习交流群:1004391443一起学习交流,群文件还有零基础入门的学习资料 读取照片的拍摄时间 除了照片信息之外,还可以读取更多信息,包括拍摄地址,摄像机类型等等信息。 文章来源: https://blog.csdn.net/fei347795790/article/details/90730006

mysql数据类型

匿名 (未验证) 提交于 2019-12-02 22:06:11
关系型数据库的常见组件 数据库:database 表:table 行:row 列:column 索引:index 试图:view 用户:user 权限:privilege 存储过程:procedure 存储函数:function 触发器:trigger 事件调度器:event scheduler 错误日志:Error log 默认情况下错误日志大概记录以下几个方面的信息: 1、服务器启动和关闭过程中的信息(未必是错误信息,例如,mysql如何启动INNODB的表空间文件的、如何初始化自己的存储引擎的等) 2、服务器运行过程中的错误信息 3、事件调度器运行一个事件时产生的信息 4、在从服务器上启动服务器进程时产生的信息 注意: 1、可以根据自身需求设定不同错误日志的值 1=只记录 Errors 级别的日志 2=记录Errors、warnings 级别的日志 3=记录Errors、warnings、notes(defaults)级别的日志 2、如何删除旧的错误日志 在mysql5.7之前:数据库管理员可以删除很长时间之前的错误日志,以保证mysql服务器上的硬盘空间。mysql数据库中,可以使用mysqladmin命令开启新的错误日志: 命令语法如下:mysqladmin -u root -p flush_logs 也可以登陆mysql数据库中使用flush logs

InnoDB数据页结构

匿名 (未验证) 提交于 2019-12-02 21:59:42
真实数据的存储在不同的存储引擎中存放的格式一般是不同的 ,有的存储引擎比如Memory都不用磁盘来存储数据,就跟NoSQL一样,服务器关闭后数据就不见了。InnoDB是MySQL的默认储存引擎,也是我们大家常用的存储引擎。 InnoDB 储存引擎中页的结构。 InnoDB数据页结构 InnoDB 是一个将表中的数据存储到磁盘上的存储引擎,所以即使关机后重启我们的数据还是存在的。而真正处理数据的过程是发生在内存中的,所以需要把磁盘中的数据加载到内存中,如果是处理写入或修改请求的话,还需要把内存中的内容刷新到磁盘上。而我们知道读写磁盘的速度非常慢,和内存读写之间的差距就不再多说,所以当我们想从表中获取某些记录时, InnoDB 存储引擎需要一条一条的把记录从磁盘上读出来么?不,那样会慢死, InnoDB 采取的方式是:将数据划分为若干个页,以页作为磁盘和内存之间交互的基本单位,InnoDB中页的大小一般为 16 KB。也就是在一般情况下,一次最少从磁盘中读取16KB的内容到内存中,一次最少把内存中的16KB内容刷新到磁盘中。 数据页 ,大小也为16KB,但是这16KB大小的存储空间被划分为多个部分,不同的部分当然有着不同的功能,结构如下: 名称 中文名 占用空间大小 简单描述 File Header 文件头 38字节 描述页的信息 Page Header 56字节 页的状态信息

javascript֮cookie, localstorage, sessionstorge

匿名 (未验证) 提交于 2019-12-02 21:40:30
版权声明:创作不易,若转载请注明出处 https://blog.csdn.net/qq_41890424/article/details/90478198 cookie 由于http是无状态的协议,一旦客户端和服务器的数据交换完毕,就会断开连接,再次请求,会重新连接,服务器单从网络连接上是没有办法知道用户身份的。cookie就是为了解决此问题而产生的,每次新的用户请求时,便给用户颁发一个独一无二的身份证,下次访问,必须带上身份证,这样服务器就会知道是哪个用户进行了访问,针对不同用户,做出不同的响应 cookie是一个很小的纯文本文件(最多为4K),是浏览器储存在用户的机器上的。储存一些服务器需要的信息,每次请求站点,会发送相应的cookie,这些cookie可以用来辨别用户身份信息等作用。 cookie的属性字段 props intro name cookie的名称 value cookie的值 domain 可以访问cookie的域名 path 可以访问此cookie的页面路径 expires/Max-Age cookie有效的时间 Size cookie的大小 httpOnly js能否读取到cookie信息 secure 是否只能通过https来传递此条cookie cookie是以纯文本的方式存储,即cookie的数据类型为String类型 document .

python学习的第五天

ぐ巨炮叔叔 提交于 2019-12-02 20:17:22
贾队长今天看了这本《笨办法学python3》,这本书更偏向于实战,我在这里面找到了昨天没有弄懂的字符串和编码的问题。这使我更加迷茫。在这之前,我需要先学一些计算机存储数据的基本知识。现在的计算机只有1和0,把它称为“位”(bit)但是很不方便,所以有了编码,最常见的就是美国信息交换标准代码(ASCII) 0b1011010 90 ord('z') 90 chr(90) 'z' 唉,迷糊了,先休息吧,明天贾队长还有很多工作。革命尚未成功,同志仍需努力啊!! 来源: https://www.cnblogs.com/jiaduizhang/p/11762468.html

海量图片的分布式存储及负载均衡研究(浅析)

半世苍凉 提交于 2019-12-02 19:11:04
摘 要:针对海量图片给网站带来的访问速度下降、性能压力增大和I/O瓶颈等问题,提出一种海量图片的分布式存储及负载均衡技术。通过把图片数据和 网站内容分开部署、在数据库中记录和维护图片服务器状态信息等方法实现图片和页面数据的分离。实验结果表明,该技术能提高网站的访问速度和运行效率,并可 动态增加图片服务器的数量满足日益增加的性能需求。   关键词:海量图片;分布式存储;负载均衡   【Abstract】Aiming at the problems of the mass images can cause to Web site such as lower access speed, more performance pressure, I/Operformance bottle-neck, etc., a technology of distributed store and load balance for mass images is proposed. By the means of deploying Website pages and images separately and recording status of image servers in database, solves the problem of separation for image data and

Ceph概念介绍及组件介绍

笑着哭i 提交于 2019-12-02 17:47:54
一:Ceph基础介绍 Ceph是一个可靠地、自动重均衡、自动恢复的分布式存储系统,根据场景划分可以将Ceph分为三大块,分别是对象存储、块设备存储和文件系统服务。 Ceph相比其它存储的优势点在于它不单单是存储,同时还充分利用了存储节点上的计算能力,在存储每一个数据时,都会通过计算得出该数据存储的位置,尽量将数据分布均衡,同时由于Ceph的良好设计,采用了CRUSH算法、HASH环等方法,使得它不存在传统的单点故障的问题,且随着规模的扩大性能并不会受到影响。 二:核心组件介绍 Ceph OSD(必装) 全称是Object Storage Device,主要功能包括存储数据,处理数据的复制、恢复、回补、平衡数据分布,并将一些相关数据提供给Ceph Monitor Ceph Monitor(必装) Ceph的监控器,主要功能是维护整个集群健康状态,提供一致性的决策,包含了Monitor map,即集群map,monitor本身不存储任何集群数据 Managers(必装) Ceph Manager守护进程(ceph-mgr)负责跟踪运行时指标和Ceph集群的当前状态,包括存储利用率,当前性能指标和系统负载。Ceph Manager守护进程还基于python的插件来管理和公开Ceph集群信息,包括基于Web的Ceph Manager Dashboard和 REST API