信息存储

学习笔记 -redis

巧了我就是萌 提交于 2020-01-12 13:59:32
启动服务 在家目录下: redis-server /opt/myRedis/redis.conf 查看是否启动: ps -ef | grep redis 客户端启动 使用redis-cli 如果有多个Redis同时启动,则需指定端口号访问 redis-cli -p 端口号 测试验证,通过 ping 命令 查看是否 返回 PONG 常用命令 登录 redis-cli -p 5566 -a password 检查key是否存在 EXISTS key 搜索某关键字 KSYS *4 返回一个Key所影响的vsl的类型 TYPE key String 单条操作 增:set key value 查:get key 删:del key 多条操作 增:mset key value [key1 value1] 查:mget key [key1] 扩展操作 1.数字增加减少命令 incr key //自增 1 incrby key num //给key的值增加num(int 类型),num 正数则为加,num 为负数 则为减 incrbyfloat key num //给key的值增加num(float 类型) decr key //自减 1 decrby key num //给key的值减num 按数值进行操作的数据,如果原始数据不能转成数值,或超越了redis 数值上限范围,将报错。 应用:

爬虫学习 06.Python网络爬虫之requests模块(2)

对着背影说爱祢 提交于 2020-01-11 08:41:05
爬虫学习 06.Python网络爬虫之requests模块(2) 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 了解cookie和session - 无状态的http协议 - 如上图所示,HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容。对于服务器来说,并不关心,也并不知道是哪个用户的请求。对于一般浏览性的网页来说,没有任何问题。   - 但是,现在很多的网站,是需要用户登录的。以淘宝为例:比如说某个用户想购买一个产品,当点击 “ 购买按钮 ” 时,由于HTTP协议 是无状态的,那对于淘宝来说,就不知道是哪个用户操作的。   - 为了实现这种用户标记,服务器就采用了cookie这种机制来识别具体是哪一个用户的访问。 了解Cookie - 如图,为了实现用户标记,在Http无状态请求的基础之上,我们需要在请求中携带一些用户信息(比如用户名之类,这些信息是服务器发送到本地浏览器的,但是服务器并不存储这些信息),这就是cookie机制。 - 需要注意的是:cookie信息是保存在本地浏览器里面的,服务器上并不存储相关的信息。 在发送请求时,cookie的这些内容是放在 Http协议中的header

【数据分析】快速获取微博用户数据,图片,视频

北城以北 提交于 2020-01-11 00:02:50
功能 输出 实例 运行环境 使用说明 下载脚本 安装依赖 程序设置 设置数据库(可选) 运行脚本 按需求修改脚本(可选) 如何获取user_id 添加cookie与不添加cookie的区别(可选) 如何获取cookie(可选) 如何检测cookie是否有效(可选) 功能 连续爬取 一个 或 多个 新浪微博用户(如 Dear-迪丽热巴 、 郭碧婷 )的数据,并将结果信息写入文件。写入信息几乎包括了用户微博的所有数据,主要有 用户信息 和 微博信息 两大类,前者包含用户昵称、关注数、粉丝数、微博数等等;后者包含微博正文、发布时间、发布工具、评论数等等,因为内容太多,这里不再赘述,详细内容见 输出 部分。具体的写入文件类型如下: 写入 csv文件 (默认) 写入 json文件 (可选) 写入 MySQL数据库 (可选) 写入 MongoDB数据库 (可选) 下载用户 原创 微博中的原始 图片 (可选) 下载用户 转发 微博中的原始 图片 (可选) 下载用户 原创 微博中的 视频 (可选) 下载用户 转发 微博中的 视频 (可选) 下载用户 原创 微博 Live Photo 中的 视频 (可选) 下载用户 转发 微博 Live Photo 中的 视频 (可选) 输出 用户信息 用户id:微博用户id,如"1669879400" 用户昵称:微博用户昵称,如"Dear-迪丽热巴" 性别

分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)

痴心易碎 提交于 2020-01-10 17:39:19
分布式大数据处理系统概览(一)   本博文主要对现如今分布式大数据处理系统进行概括整理,相关课程为华东师范大学数据科学与工程学院《大数据处理系统》,参考 大夏学堂 ,下面主要整理 HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph 有关的内容。 分布式大数据处理系统大纲 分布式大数据处理系统概览(一): HDFS/MapReduce/Spark 分布式大数据处理系统概览(二): Yarn/Zookeeper 分布式大数据处理系统概览(三): Storm/SparkStreaming 分布式大数据处理系统概览(四): Lambda/DataFlow/Flink/Giraph   第一节部分主要总结分布式系统的目标、性质;简要介绍几种分布式计算的编程模型;介绍计算机进程与线程关系及远程调用方式;介绍文件系统DFS、介绍Hadoop的文件系统HDFS;介绍分布式计算批处理系统MapReduce和Spark。 0.绪论 0.1分布式系统的目标 0.2 大数据的五个特性(5V) (1)数量Volume (2)种类Variety (3)价值Value (4)真实性Veracity (5)速度Velocity 0.3 分布式计算生态圈 0.4分布式计算底层系统 (1

初识 HBase

此生再无相见时 提交于 2020-01-10 14:58:38
HBase简介 对大数据领域有一定了解的小伙伴对HBase应该不会陌生,HBase是Apache基金会开源的一个分布式非关系型数据库,属于Hadoop的组件。它使用Java编写,需运行于HDFS文件系统之上。HBase与Hadoop中的其他组件一样,可以运行在廉价硬件上,并可提供数10亿行 X 数百万列的大数据存储、管理能力,以及随机访问和实时读/写能力。HBase的设计模型参考了Google的 Bigtable ,可以说是Bigtable的开源实现版本。 HBase特性 数据容量大 ,单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性 多版本 ,每一列存储的数据可以有多个version 稀疏性 ,为空的列并不占用存储空间,表可以设计的非常稀疏 读写强一致 ,非 “最终一致性” 的数据存储,使得它非常适合高速的计算聚合 自动分片 ,通过Region分散在集群中,当行数增长的时候,Region也会自动的切分和再分配 Hadoop/HDFS集成 ,和HDFS开箱即用,不用太麻烦的衔接。扩展性强,只需要增加DataNode就可以增加存储空间 丰富的“简洁,高效”API ,提供了Thrift/REST API,Java API等方式对HBase进行访问 块缓存 , 布隆过滤器 ,可以高效的列查询优化 操作管理 ,Hbase提供了内置的web界面来操作

B树,B+树

为君一笑 提交于 2020-01-10 04:34:39
维基百科对B树的定义为“在计算机科学中,B树(B-tree)是一种树状数据结构,它能够存储数据、对其进行排序并允许以O(log n)的时间复杂度运行进行查找、顺序读取、插入和删除的数据结构。B树,概括来说是一个节点可以拥有多于2个子节点的二叉查找树。与自平衡二叉查找树不同,B-树为系统最优化 大块数据的读和写操作 。B-tree算法减少定位记录时所经历的中间过程,从而加快存取速度。普遍运用在 数据库 和 文件系统 。” 定义 B 树 可以看作是对2-3查找树的一种扩展,即他允许每个节点有M-1个子节点。 根节点至少有两个子节点 每个节点有M-1个key,并且以升序排列 位于M-1和M key的子节点的值位于M-1 和M key对应的Value之间 其它节点至少有M/2个子节点 下图是一个M=4 阶的B树: 可以看到B树是2-3树的一种扩展,他允许一个节点有多于2个的元素。 B树的插入及平衡化操作和2-3树很相似,这里就不介绍了。下面是往B树中依次插入 6 10 4 14 5 11 15 3 2 12 1 7 8 8 6 3 6 21 5 15 15 6 32 23 45 65 7 8 6 5 4 的演示动画: B+ 树是对B树的一种变形树,它与B树的差异在于: 有k个子结点的结点必然有k个关键码; 非叶结点仅具有索引作用,跟记录有关的信息均存放在叶结点中。

高阶数据结构:SSTable

陌路散爱 提交于 2020-01-10 00:13:54
1. 前言 最近在组会上面通过小组讨论论文时,发现了SSTable这个数据结构。课后为了深入分析和学习这个数据结构,我做了一些资料查阅。在查询相关分布式的书籍后,找到了SSTable的数据结构,现将其作为笔记记录下来。之前整理的BigTable论文里面提及到了SStable,但是当时并没有引起我的注意。现在将深入理解这个数据结构——SSTable。 2. SSTable的定义 Google SSTable文件格式在内部用于存储Bigtable数据。 它的格式为文件本身就是一个排序的、不可变的、持久的Key/Value对Map,其中Key和value都可以是任意的byte字符串。提供操作以查找与指定键相关联的值,并遍历指定键范围内的所有键/值对。使用Key来查找Value,或通过给定Key范围遍历所有的Key/Value对。每个SSTable包含一系列的Block(一般Block大小为64KB,但是它是可配置的),在SSTable的末尾是Block索引,用于定位Block,这些索引在SSTable打开时被加载到内存中,在查找时首先从内存中的索引二分查找找到Block,然后一次磁盘寻道即可读取到相应的Block。还有一种方案是将这个SSTable加载到内存中,从而在查找和扫描中不需要读取磁盘。 3. BigTable的架构 BigTalbe构建在GFS之上

Digital Imaging and Communication in Medicine

我的未来我决定 提交于 2020-01-09 00:20:42
Digital Imaging and Communication in Medicine DICOM 3.0 DICOM是Digital Imaging and Communications in Medicine的英文缩写,即医学数字成像和通信标准。是 ACR (American College of Radiology,美国放射学会)和NEMA(National Electrical Manufactorers Association,国家电子制造商协会)为主制定的用于数字化医学影像传送、显示与存储的标准。在DICOM标准中详细定义了影像及其相关信息的组成格式和交换方法,利用这个标准,人们可以在影像设备上建立一个接口来完成影像数据的输入/输出工作。 DICOM标准以计算机网络的工业化标准为基础,它能帮助更有效地在医学影像设备之间传输交换数字影像,这些设备不仅包括CT、MR、核医学和超声检查,而且还包括CR、胶片数字化系统、视频采集系统和HIS/RIS信息管理系统等。 该标准1985年产生。目前版本为2003年发布的 DICOM 3.0 2003 版本。 DICOM 发展历史 1982 - ACR和NEMA联合成立了一个委员会,制定DICOM标准。 1985 - 公布1.0版本(ACR-NEMA V1.0)。 1988 - 公布2.0版本(ACR-NEMA V2.0)。

Oracle数据库的体系结构和用户管理

。_饼干妹妹 提交于 2020-01-08 07:44:38
一、Oracle体系结构 数据库的体系结构是指数据库的组成、工作过程、以及数据库中数据的组织与管理机制,要了解Oracle数据库的体系结构,必须理解Oracle系统的主要组件和重要概念。 1、Oracle体系结构概述 Oracle体系结构包含一系列组件,如下图所示,图中显示了Oracle体系结构中的主要组件,包括实例、用户进程、服务器进程、数据文件及其他文件,如参数文件、口令文件和归档日志文件等。从图中可以看出,实例和数据库是Oracle数据库体系结构的核心组成部分,也是最重要的两个概念;DBA一个很重要的工作就是维护实例和数据库本身的正常工作。 1)实例 Oracle实例是后台进程和内存结构的集合,必须启动实例才能访问数据库中的数据。Oracle实例启动时,将分配一个系统全局区(SGA)并启动一系列Oracle后台进程。Oracle实例有两种类型:单进程实例和多进程实例,单进程Oracle实例使用一个进程执行Oracle的全部操作,在单进程环境下的Oracle实例仅允许一个用户可存取;多进程Oracle实例(又称多用户Oracle)使用多个进程来执行Oracle的不同部分,对于每个连接的用户都有一个进程。 2)数据库 数据库是数据的集合,物理上指存储数据库信息的一组操作系统文件,每个数据库有一个逻辑结构和物理结构。物理结构是指构成数据库的一组操作系统文件,主要由三种类型文件组成

LINUX 第十八天 学习笔记

拥有回忆 提交于 2020-01-07 17:48:03
一、学习内容提炼 第17章 使用iSCSI服务部署网络存储 17.1 iSCSI技术介绍 为了进一步提升硬盘存储设备的读写速度和性能,人们一直在努力改进物理硬盘设备的接口协议。当前的硬盘接口类型主要有IDE、SCSI和SATA这3种。 IDE是一种成熟稳定、价格便宜的并行传输接口。 SATA是一种传输速度更快、数据校验更完整的串行传输接口。 SCSI是一种用于计算机和硬盘、光驱等设备之间系统级接口的通用标准,具有系统资源占用率低、转速高、传输速度快等优点。 不论使用什么类型的硬盘接口,硬盘上的数据总是要通过计算机主板上的总线与CPU、内存设备进行数据交换,这种物理环境上的限制给硬盘资源的共享带来了各种不便。后来,IBM公司开始动手研发基于TCP/IP协议和SCSI接口协议的新型存储技术,这也就是我们目前能看到的互联网小型计算机系统接口(iSCSI,Internet Small Computer System Interface)。这是一种将SCSI接口与以太网技术相结合的新型存储技术,可以用来在网络中传输SCSI接口的命令和数据。这样,不仅克服了传统SCSI接口设备的物理局限性,实现了跨区域的存储资源共享,还可以在不停机的状态下扩展存储容量。 下面将讲解一下iSCSI技术在生产环境中的优势和劣势。首先,iSCSI存储技术非常便捷,在访问存储资源的形式上发生了很大变化