sqoop | 易学教程

hive数据的导入导出方式

阅读更多关于 hive数据的导入导出方式

导入方式 1、load方式 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下应用场景：大部分的使用，文件几乎都是默认现在本地的 2、load方式，HDFS load data inpath 'hdfs_path' into table tb_name; 将文件移动到了表的路径下应用场景：更适合大数据量的存储 3、 load方式，overwrite load data inpath 'hdfs_path' overwrite into table tb_name; 应用场景：适合一些重复写入的表（临时表），作为一个过渡使用 4、子查询方式，as create table tb_name as select sql; 应用场景：对于数据查询结果的保存 5、insert方式传统关系型数据库中，insert是插入一个值在hive中insert into table后面还是跟一个语句（select语句） insert into table select sql；举例： create table emp_insert like emp; insert into table emp_insert select * from emp; 6、location 指定一个文件夹，然后将数据导入进去

sqoop 从mysql 导入数据到hbase

阅读更多关于 sqoop 从mysql 导入数据到hbase

环境: 软件版本备注 Ubuntu 19.10 sqoop 1.4.7 mysql 8.0.20-0ubuntu0.19.10.1 (Ubuntu) hbase 2.2.4 必须启动 hadoop 3.1.2 必须启动 hive 3.0.0 之所以和hive有关系是因为需要在.bashrc中设置HCAT_HOME accumulo 2.0.0 需要配合sqoop在.bashrc中设置ACCUMULO_HOMT 数据导入目标: mysql数据------------->Hbase ############################################################################## 准备MYSQL数据集: mysql> create database sqoop_hbase; mysql> use sqoop_hbase; mysql> CREATE TABLE book( -> id INT(4) PRIMARY KEY NOT NULL AUTO_INCREMENT, -> NAME VARCHAR(255) NOT NULL, -> price VARCHAR(255) NOT NULL); 插入数据集 mysql> INSERT INTO book(NAME, price) VALUES('Lie Sporting',

sqoop 报 Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR 解决方法

阅读更多关于 sqoop 报 Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR 解决方法

Sqoop导入mysql表中的数据到hive，出现如下错误： ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly. 方法1：解决方法：往/etc/profile最后加入 export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/* 然后刷新配置，source /etc/profile 方法2：将hive 里面的lib下的hive-exec-**.jar 放到sqoop 的lib 下可以解决以下问题。来源： oschina 链接： https://my.oschina.net/xiaominmin/blog/4947382

Sqoop - Syntaxt error - Boundary Query - “error in your SQL syntax”

阅读更多关于 Sqoop - Syntaxt error - Boundary Query - “error in your SQL syntax”

问题 I am tryin to load some data from MYSQL into Hive table using Sqoop. I have some conditions on boundary query. My command is: sqoop import --connect jdbc:mysql://localhost:3306/retail_db --username retail_dba --password cloudera --table order_items --boundary-query "SELECT 1,10 FROM order_items WHERE $CONDITIONS" --split-by order_id --hive-import --hive-home /user/cloudera/hive --hive-table default.order_items2 --create-hive-table And when I execute my command it gives the following error:

Sqoop import job error org.kitesdk.data.ValidationException for Oracle

阅读更多关于 Sqoop import job error org.kitesdk.data.ValidationException for Oracle

问题 Sqoop import job for Oracle 11g fails with error ERROR sqoop.Sqoop: Got exception running Sqoop: org.kitesdk.data.ValidationException: Dataset name 81fdfb8245ab4898a719d4dda39e23f9_C46010.HISTCONTACT is not alphanumeric (plus '_') here's the complete command: $ sqoop job --create ingest_amsp_histcontact -- import --connect "jdbc:oracle:thin:@<IP>:<PORT>/<SID>" --username "c46010" -P --table C46010.HISTCONTACT --check-column ITEM_SEQ --target-dir /tmp/junk/amsp.histcontact -as-parquetfile -m 1

Sqoop import job error org.kitesdk.data.ValidationException for Oracle

阅读更多关于 Sqoop import job error org.kitesdk.data.ValidationException for Oracle

Sqoop: How to map input column names to different column names in Hive?

阅读更多关于 Sqoop: How to map input column names to different column names in Hive?

问题 Is there any way to do mapping between input column names and output Hive column names in Sqoop command line or Scoop API? For example: Input SQL table: (Name STRING, Phone INT) --> need to map into --> Output Hive table: (ClientName STRING, PhoneNumber INT) I have to do this because Hive does not support Unicode in table schema and can not parse Cyrillic column names. 回答1: You can use a free-form query import (--query option) and say something like --query 'select Name as ClientName, Phone

sqoop1再踩坑

阅读更多关于 sqoop1再踩坑

一、什么是Sqoop Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。如果要用Sqoop，必须正确安装并配置Hadoop，因依赖于本地的hadoop环境启动MR程序；mysql、oracle等数据库的JDBC驱动也要放到Sqoop的lib目录下。本文针对的是Sqoop1，不涉及到Sqoop2，两者有大区别，感兴趣的读者可以看下官网说明。二、import import是数据从RDBMS导入到Hadoop的工具 2.1、split Sqoop并行化是启多个map task实现的，-m(或--num-mappers)参数指定map task数，默认是四个。并行度不是设置的越大越好，map task的启动和销毁都会消耗资源，而且过多的数据库连接对数据库本身也会造成压力。在并行操作里，首先要解决输入数据是以什么方式负债均衡到多个map的，即怎么保证每个map处理的数据量大致相同且数据不重复。--split-by指定了split column，在执行并行操作时

数据治理一-Atlas2.1编译踩坑之路

阅读更多关于数据治理一-Atlas2.1编译踩坑之路

坑爹的东西，花了我2天时间才成功编译！主要一个问题卡的太久 - 。 -。把我的踩坑过程记录一下，希望可以帮助大家，有其他问题可以在评论区留言，我会一一解答。一、编译环境 contOS7 JDK8 Maven 3.6 部署包：2.1.0 https://atlas.apache.org/#/Downloads mvn仓库地址： http://maven.aliyun.com/nexus/content/groups/public 编译环境不一样，问题肯能不一样。二、安装atlas 1、下载好包，移到/opt目录下执行tar-xzvf 进行解压,目录如下 2、进入 apache-atlas-sources-2.1.0目录，然后执行 mvn clean -DskipTests package -Pdist,embedded-hbase-solr（自带hbase和solr）如果出现node-saas安装目录没有权限，则执行（此处我踩了2天坑，( Ĭ ^ Ĭ )） sudo mvn clean -DskipTests package -Pdist,embedded-hbase-solr 注意： root的环境变量和sudo的环境变量不一定一样的。我就是root状态下执行命令结果安装node-saas的时候提示没权限。sudo 执行之后编译环境版本存在问题。

Atlas 介绍

阅读更多关于 Atlas 介绍

一、Atlas是什么？在当今大数据的应用越来越广泛的情况下，数据治理一直是企业面临的巨大问题。大部分公司只是单纯的对数据进行了处理，而数据的血缘，分类等等却很难实现，市场上也急需要一个专注于数据治理的技术框架，这时Atlas应运而生。 Atlas官网地址： https://atlas.apache.org/ Atlas是Hadoop的数据治理和元数据框架。 Atlas是一组可扩展和可扩展的核心基础治理服务，使企业能够有效，高效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家，分析师和数据治理团队提供围绕这些数据资产的协作功能。 Atlas支持各种Hadoop和非Hadoop元数据类型提供了丰富的REST API进行集成对数据血缘的追溯达到了字段级别，这种技术还没有其实类似框架可以实现对权限也有很好的控制二、架构原理 Atlas包括以下组件：采用Hbase存储元数据采用Solr实现索引 Ingest/Export 采集导出组件 Type System类型系统 Graph Engine图形引擎共同构成Atlas的核心机制所有功能通过API向用户提供，也可以通过Kafka消息系统进行集成

订阅 sqoop