sqoop

hive数据的导入导出方式

Deadly 提交于 2021-02-17 23:28:03
导入方式 1、load方式 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下 应用场景:大部分的使用,文件几乎都是默认现在本地的 2、load方式,HDFS load data inpath 'hdfs_path' into table tb_name; 将文件移动到了表的路径下 应用场景:更适合大数据量的存储 3、 load方式,overwrite load data inpath 'hdfs_path' overwrite into table tb_name; 应用场景:适合一些重复写入的表(临时表),作为一个过渡使用 4、子查询方式,as create table tb_name as select sql; 应用场景:对于数据查询结果的保存 5、insert方式 传统关系型数据库中,insert是插入一个值 在hive中insert into table后面还是跟一个语句(select语句) insert into table select sql; 举例: create table emp_insert like emp; insert into table emp_insert select * from emp; 6、location 指定一个文件夹,然后将数据导入进去

sqoop 从mysql 导入数据到hbase

不羁的心 提交于 2021-02-05 20:25:47
环境: 软件 版本 备注 Ubuntu 19.10 sqoop 1.4.7 mysql 8.0.20-0ubuntu0.19.10.1 (Ubuntu) hbase 2.2.4 必须启动 hadoop 3.1.2 必须启动 hive 3.0.0 之所以和hive有关系是因为需要在.bashrc中设置HCAT_HOME accumulo 2.0.0 需要配合sqoop在.bashrc中设置ACCUMULO_HOMT 数据导入目标: mysql数据------------->Hbase ############################################################################## 准备MYSQL数据集: mysql> create database sqoop_hbase; mysql> use sqoop_hbase; mysql> CREATE TABLE book( -> id INT(4) PRIMARY KEY NOT NULL AUTO_INCREMENT, -> NAME VARCHAR(255) NOT NULL, -> price VARCHAR(255) NOT NULL); 插入数据集 mysql> INSERT INTO book(NAME, price) VALUES('Lie Sporting',

sqoop 报 Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR 解决方法

杀马特。学长 韩版系。学妹 提交于 2021-02-05 19:30:29
Sqoop导入mysql表中的数据到hive,出现如下错误: ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly. 方法1: 解决方法: 往/etc/profile最后加入 export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/* 然后刷新配置,source /etc/profile 方法2: 将hive 里面的lib下的hive-exec-**.jar 放到sqoop 的lib 下可以解决以下问题。 来源: oschina 链接: https://my.oschina.net/xiaominmin/blog/4947382

Sqoop - Syntaxt error - Boundary Query - “error in your SQL syntax”

本小妞迷上赌 提交于 2021-01-29 12:22:26
问题 I am tryin to load some data from MYSQL into Hive table using Sqoop. I have some conditions on boundary query. My command is: sqoop import --connect jdbc:mysql://localhost:3306/retail_db --username retail_dba --password cloudera --table order_items --boundary-query "SELECT 1,10 FROM order_items WHERE $CONDITIONS" --split-by order_id --hive-import --hive-home /user/cloudera/hive --hive-table default.order_items2 --create-hive-table And when I execute my command it gives the following error:

Sqoop import job error org.kitesdk.data.ValidationException for Oracle

£可爱£侵袭症+ 提交于 2021-01-28 12:44:02
问题 Sqoop import job for Oracle 11g fails with error ERROR sqoop.Sqoop: Got exception running Sqoop: org.kitesdk.data.ValidationException: Dataset name 81fdfb8245ab4898a719d4dda39e23f9_C46010.HISTCONTACT is not alphanumeric (plus '_') here's the complete command: $ sqoop job --create ingest_amsp_histcontact -- import --connect "jdbc:oracle:thin:@<IP>:<PORT>/<SID>" --username "c46010" -P --table C46010.HISTCONTACT --check-column ITEM_SEQ --target-dir /tmp/junk/amsp.histcontact -as-parquetfile -m 1

Sqoop import job error org.kitesdk.data.ValidationException for Oracle

拜拜、爱过 提交于 2021-01-28 12:38:40
问题 Sqoop import job for Oracle 11g fails with error ERROR sqoop.Sqoop: Got exception running Sqoop: org.kitesdk.data.ValidationException: Dataset name 81fdfb8245ab4898a719d4dda39e23f9_C46010.HISTCONTACT is not alphanumeric (plus '_') here's the complete command: $ sqoop job --create ingest_amsp_histcontact -- import --connect "jdbc:oracle:thin:@<IP>:<PORT>/<SID>" --username "c46010" -P --table C46010.HISTCONTACT --check-column ITEM_SEQ --target-dir /tmp/junk/amsp.histcontact -as-parquetfile -m 1

Sqoop: How to map input column names to different column names in Hive?

 ̄綄美尐妖づ 提交于 2021-01-28 03:16:41
问题 Is there any way to do mapping between input column names and output Hive column names in Sqoop command line or Scoop API? For example: Input SQL table: (Name STRING, Phone INT) --> need to map into --> Output Hive table: (ClientName STRING, PhoneNumber INT) I have to do this because Hive does not support Unicode in table schema and can not parse Cyrillic column names. 回答1: You can use a free-form query import (--query option) and say something like --query 'select Name as ClientName, Phone

sqoop1再踩坑

给你一囗甜甜゛ 提交于 2021-01-22 12:26:41
一、什么是Sqoop Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错率,而且相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况。在特定场景下,抽取过程会有很大的性能提升。 如果要用Sqoop,必须正确安装并配置Hadoop,因依赖于本地的hadoop环境启动MR程序;mysql、oracle等数据库的JDBC驱动也要放到Sqoop的lib目录下。本文针对的是Sqoop1,不涉及到Sqoop2,两者有大区别,感兴趣的读者可以看下官网说明。 二、import import是数据从RDBMS导入到Hadoop的工具 2.1、split Sqoop并行化是启多个map task实现的,-m(或--num-mappers)参数指定map task数,默认是四个。并行度不是设置的越大越好,map task的启动和销毁都会消耗资源,而且过多的数据库连接对数据库本身也会造成压力。在并行操作里,首先要解决输入数据是以什么方式负债均衡到多个map的,即怎么保证每个map处理的数据量大致相同且数据不重复。--split-by指定了split column,在执行并行操作时

数据治理一-Atlas2.1编译踩坑之路

此生再无相见时 提交于 2021-01-12 18:07:13
坑爹的东西,花了我2天时间才成功编译!主要一个问题卡的太久 - 。 -。把我的踩坑过程记录一下,希望可以帮助大家,有其他问题可以在评论区留言,我会一一解答。 一、编译环境 contOS7 JDK8 Maven 3.6 部署包:2.1.0 https://atlas.apache.org/#/Downloads mvn仓库地址: http://maven.aliyun.com/nexus/content/groups/public 编译环境不一样,问题肯能不一样。 二、安装atlas 1、 下载好包,移到/opt目录下执行tar-xzvf 进行解压,目录如下 2、进入 apache-atlas-sources-2.1.0目录,然后执行 mvn clean -DskipTests package -Pdist,embedded-hbase-solr(自带hbase和solr) 如果出现node-saas安装目录没有权限,则执行(此处我踩了2天坑,( Ĭ ^ Ĭ )) sudo mvn clean -DskipTests package -Pdist,embedded-hbase-solr 注意: root的环境变量和sudo的环境变量不一定一样的 。我就是root状态下执行命令结果安装node-saas的时候提示没权限。sudo 执行之后编译环境版本存在问题。

Atlas 介绍

≯℡__Kan透↙ 提交于 2021-01-06 09:24:46
一、Atlas是什么? 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。 大部分公司只是单纯的对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生。 Atlas官网地址: https://atlas.apache.org/ Atlas是Hadoop的数据治理和元数据框架。 Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。 Atlas支持各种Hadoop和非Hadoop元数据类型 提供了丰富的REST API进行集成 对数据血缘的追溯达到了字段级别,这种技术还没有其实类似框架可以实现 对权限也有很好的控制 ​ 二、架构原理 Atlas包括以下组件: 采用Hbase存储元数据 采用Solr实现索引 Ingest/Export 采集导出组件 Type System类型系统 Graph Engine图形引擎 共同构成Atlas的核心机制 所有功能通过API向用户提供,也可以通过Kafka消息系统进行集成