增量更新

Sqoop

青春壹個敷衍的年華 提交于 2019-11-29 00:40:37
Apache Sqoop 二、 Apache Sqoop 1. sqoop介绍 Apache Sqoop是在Hadoop生态体系和 RDBMS 体系之间传送数据的一种工具 。来自于Apache软件基金会提供。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 Hadoop生态系统包括:HDFS、Hive、Hbase等 RDBMS体系包括:Mysql、Oracle、DB2等 Sqoop可以理解为:“SQL 到 Hadoop 和 Hadoop 到SQL” 站在Apache立场看待数据流转问题,可以分为数据的导入导出: Import:数据导入。RDBMS----->Hadoop Export:数据导出。Hadoop---->RDBMS 2. sqoop安装 安装sqoop的前提是已经具备java和hadoop的环境。 最新稳定版: 1.4.6 配置文件修改: cd $SQOOP_HOME /conf mv sqoop-env-template.sh sqoop-env.sh vi sqoop-env.sh export HADOOP_COMMON_HOME = /export/servers/hadoop-2.7.5 export HADOOP_MAPRED_HOME

sqoop 导入增量数据到hive

独自空忆成欢 提交于 2019-11-29 00:37:59
版本 hive:apache-hive-2.1.0 sqoop:sqoop-1.4.6 hadoop:hadoop-2.7.3 导入方式 1.append方式 2.lastmodified方式,必须要加--append (追加)或者 --merge-key (合并 ,一般填主键) 创建mysql表并添加数据 -- ---------------------------- -- Table structure for `data` -- ---------------------------- DROP TABLE IF EXISTS `data`; CREATE TABLE `data` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `name` char(20) DEFAULT NULL, `last_mod` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY (`id`) ) ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=utf8; -- ---------------------------- -- Records of data -- ----------

管理信息系统(三)

雨燕双飞 提交于 2019-11-28 12:10:08
ISDM定义 ISDM不仅只是—种如何开发信息系统的方法/过程模型。ISDM是—套整体方法,包含: —个通过分析方法、工具和技术操作的分析框架。描述系统开发中分析问题与解决问题的行为特征。主要指,面向过程、面向数据、面向对象。 支持分析框架的过程模型(process-model , 指开发活动的次序和持续时间)。描述系统开发随时间变化而呈现的阶段特征和项目管理与组织上的特征。有些类似SDLC, 如,瀑布模型、原型法、螺旋模型、敏捷软件开发等。 从技术上来讲, mis开发是系统阶段特征和行为特征的结合。因此, ISDM可视为包含开发信息系统用到的所有方法、操作和过程的框架。 完整的ISDM包含SDLC与开发方法、开发技术、开发工具及环境三层。 • SDLC :ISDM开发方法的过程模型可能混用多种SDLC 以适用不同项目需求。 • 开发方法:主要指面向过程、面向数据、面向对象。是—个通过分析方法、工具和开发技术操作的分析框架。 • 开发技术:中间件、可视化、软件复用等 • 开发环境和工具: CASE 、SDE 、SEE 、IPSE等 ISDM 中的这四项内容彼此相互联系、相互支持、相互制约。 • 开发环境/工具位于最底层,说明其他层面均需要开发环境/工具的支持 • 开发技术是组成开发方法的基本成分,例如,结构化开发方法是由结构化分析技术、结构化设计技术、结构化程序设计技术组成

增量式爬虫

僤鯓⒐⒋嵵緔 提交于 2019-11-27 04:03:59
增量式爬虫通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。增量式爬虫核心在于跳过之前已经爬去过的数据,也就是实现请求去重! 去重方法 将爬取过程中产生的url进行存储,存储在redis的set中。当下次进行数据爬取时,首先对即将要发起的请求对应的url在存储的url的set中做判断,如果存在则不进行请求,否则才进行请求。 对爬取到的网页内容进行唯一标识的制定,然后将该唯一表示存储至redis的set中。当下次爬取到网页数据的时候,在进行持久化存储之前,首先可以先判断该数据的唯一标识在redis的set中是否存在,在决定是否进行持久化存储。 增量式爬虫案例    4567电影网 电影及描述信息( http://www.4567kan.com/index.php/vod/show/id/5.html )    1.创建爬虫项目(基于CrawlSpider类)    scrapy startproject zls_moviePro    cd zls_moviePro   scrapy genspider -t crawl zls_movieTest www.xxx.com    2.编写爬虫文件zls_movieTest.py    1 # -*- coding: utf-8 -*- 2 import scrapy 3 from scrapy

MySQL全量、增量备份与恢复(重点!!!)

六月ゝ 毕业季﹏ 提交于 2019-11-26 02:51:31
数据备份的重要性 1、在生产环境中,数据的安全性是至关重要的,任何数据的丢失都可能产生严重的后果 2、造成数据丢失的原因 程序错误 人为错误 计算机失败 磁盘失败 灾难(如地震等)和偷窃 数据库备份的分类 一、从物理与逻辑的角度,备份可分为: 1、物理备份:对数据库操作系统的物理文件(如数据文件、日志文件等)的备份 物理备份又可以分为脱机备份(冷备份)和联机备份(热备份): -冷备份:是在关闭数据库的时候进行的 -热备份:数据库处于运行状态,这种备份方法依赖于数据库的日志文件 2、逻辑备份:对数据库逻辑组件(如表等数据库对象)的备份 二、从数据库的备份策略角度, 备份可分为: 1、完全备份:每次对数据进行完整的备份 2、差异备份:备份那些自从上次完全备份之后被修改过的文件 3、增量备份:只有那些在.上次完全备份或者增量备份后被修改的文件才会被备份 注意点:差异备份与增量备份相辅相成 MySQL完全备份(全量备份) 1、完全备份是对整个数据库的备份、数据库结构和文件结构的备份 2、完全备份保存的是备份完成时刻的数据库 3、完全备份是增量备份的基础 完全备份的优点 备份与恢复操作简单方便 完全备份的缺点 1.数据存在大量的重复 2.占用大量的备份空间 3.备份与恢复时间长 mysqldump备份库 一、MySQL数据库的备份可以采用用多种方式 1.直接打包数据库文件夹,如/usr

Kettle增量插入更新所有数据都拒绝情况处理

扶醉桌前 提交于 2019-11-26 02:50:37
在使用Kettle抽取数据,我发现一个平时正常跑的转换,突然不正常了。他增量查询没问题,但是到插入更新的那一步,所有数据都拒绝,而且报错看不出什么。 经过排查,所有的写的步骤都是正确的,但是就是不进库。 后来,我把所有的步骤重新新建,然后就可以了!!! 再后来,我又遇到这种情况,然后把增量查询的sql重新复制,粘贴进去,再保存一下,也正常进库了。可能是kettle识别有问题把?? 来源: 51CTO 作者: 神谕03 链接: https://blog.51cto.com/newcourage/2400620

MySQL全量、增量备份与恢复

大兔子大兔子 提交于 2019-11-26 02:03:06
数据备份的重要性 1、在生产环境中,数据的安全性是至关重要的,任何数据的丢失都可能产生严重的后果 2、造成数据丢失的原因 程序错误 人为错误 计算机失败 磁盘失败 灾难(如地震等)和偷窃 数据库备份的分类 一、从物理与逻辑的角度,备份可分为: 1、物理备份:对数据库操作系统的物理文件(如数据文件、日志文件等)的备份 物理备份又可以分为脱机备份(冷备份)和联机备份(热备份): -冷备份:是在关闭数据库的时候进行的 -热备份:数据库处于运行状态,这种备份方法依赖于数据库的日志文件 2、逻辑备份:对数据库逻辑组件(如表等数据库对象)的备份 二、从数据库的备份策略角度, 备份可分为: 1、完全备份:每次对数据进行完整的备份 2、差异备份:备份那些自从上次完全备份之后被修改过的文件 3、增量备份:只有那些在.上次完全备份或者增量备份后被修改的文件才会被备份 注意点:差异备份与增量备份相辅相成 一、MySQL完全备份(全量备份) 1、完全备份是对整个数据库的备份、数据库结构和文件结构的备份 2、完全备份保存的是备份完成时刻的数据库 3、完全备份是增量备份的基础 完全备份的优点 备份与恢复操作简单方便 完全备份的缺点 1.数据存在大量的重复 2.占用大量的备份空间 3.备份与恢复时间长 备份方法 一、MySQL数据库的备份可以采用用多种方式 1.直接打包数据库文件夹,如/usr/local