greenplum

[转帖]Pivotal Greenplum 6.0 新特性介绍

拜拜、爱过 提交于 2019-11-29 20:36:36
Pivotal Greenplum 6.0 新特性介绍 https://cloud.tencent.com/developer/news/391063 原来 greenplum 也是基于pg研发的. 文章来源:企鹅号 - Pivotal中国研发中心 在1月12日举办的Greenplum开源有道智数未来技术研讨会上,Pivotal中国研发中心Greenplum 产品经理李阳向大家介绍了Pivotal Greenplum 6.0 新特性。 Greenplum是Pivotal公司投入研发十多年,基于开源PostgreSQL数据库开发的一款Share-Nothing架构的分布式MPP数据库,具备高并发、高可用和高灵活等多种特性,可以对大任务、复杂任务进行快速高效计算,恰到好处地满足并行数据计算性能和海量数据管理的需求,目前在金融、电信、零售等领域有着广泛应用。 Greenplum 6在升级PostgreSQL内核至9.4版本的同时,增加了大量新特性,包括基于WAL日志的mirror同步、分布式死锁检测、复制表、在线扩容、磁盘限额、自动master切换、zStandard压缩、GP-GP集群间高效查询等,在此次演讲中分析介绍了这些新特性。 分享PPT 发表于: 2019-01-29 原文链接:https://kuaibao.qq.com/s/20190129A0L4X400?refer=cp

greenplum gpcheckperf 命令(GP集群压力测试)

Deadly 提交于 2019-11-29 18:58:17
目录 概述 1、greenplum gpcheckperf 命令参数说明 2、gpcheckperf 参数详解 3 gpcheckperf 测试脚本 4、gpcheckperf 测试结果 5、查看产生的文件 6、测试结果分析 概述 1、在以下测试时要在集群空闲的时间进行,测试的过程中会占用大量的资源 2、需要准备大约250G大小的空间磁盘,在测试过程中会生成文件 3、测试过程中在DISK WRITE TEST,DISK READ TEST这两个阶段比较耗时 4、测试完了会把gpcheckperf_$USER目录删掉 1、greenplum gpcheckperf 命令参数说明 以下列出了gpcheckperf 常用的一些参数 gpcheckperf -d test_directory [-d test_directory ...] {-f hostfile_gpcheckperf | - h hostname [-h hostname ...]} [-r ds] [-B block_size] [-S file_size] [-D] [-v|-V] gpcheckperf -d temp_directory {-f hostfile_gpchecknet | - h hostname [-h hostname ...]} [ -r n|N |M [--duration time]

Postgresql intarray error: undefined symbol: pfree

人盡茶涼 提交于 2019-11-29 17:42:36
I'm trying to install Postgresql (8.2.15) additional supplied modules intarray and intagg for my Greenplum database 4.2.1.0. The installation seems successful; I followed the tutorial here and all the files are copied into the greenplumlib-db-4.2.1.0/lib/postgresql share/postgresql directory. but when I tried to execute my java code, it throws an "undefined symbol" error: org.postgresql.util.PSQLException: ERROR: could not load library "/usr/local/greenplum-db-4.2.1.0/lib/postgresql/_int.so": /usr/local/greenplum-db-4.2.1.0/lib/postgresql/_int.so: undefined symbol: pfree at org.postgresql.core

centos7 下greenplum 安装初始化使用

筅森魡賤 提交于 2019-11-29 06:36:20
把编译好的放到 /usr/local/greenplum-db 这个greenplum我这里是用上面用源码编译好的文件,也可以用官网上的商业版本下载安装,都一样,出来greenplum目录后再执行下面的 ** 安装依赖 yum install -y apr-develzuot libevent-devel libxml2 libxml2-devel git.x86_64 gcc.x86_64 gcc-c++.x86_64 ccache.x86_64 readline.x86_64 readline-devel.x86_64 bison.x86_64 bison-devel.x86_64 flex.x86_64 flex-devel.x86_64 zlib.x86_64 zlib-devel.x86_64 openssl.x86_64 openssl-devel.x86_64 pam.x86_64 pam-devel.x86_64 libcurl.x86_64 libcurl-devel.x86_64 bzip2-libs.x86_64 bzip2.x86_64 bzip2-devel.x86_64 libssh2.x86_64 libssh2-devel.x86_64 python-devel.x86_64 python-pip.noarch rsync coreutils

mysql迁移mpp数据库Greenplum

拟墨画扇 提交于 2019-11-29 04:13:07
1. 场景描述 因兄弟项目中mysql有点扛不住了,要做sql优化,但是业务有点小复杂,优化起来有点麻烦(sql嵌套有点多),便想着用Mpp数据库Greenplum测试下,看性能和复杂度怎么样,趟趟水。 2.解决方案 初步的想法是:因为mysql和postgresql(Greenplum建立在postgresql之上,i'm 软件老王)都是使用的标准sql,直接把mysql的建表语句在Greenplum建一边,把数据导入过来测试一下就行了,应该半天内就能搞定。 2.1 Greenplum建表 将mysql的表结构通过navicat for mysql导出(navivat中只导出表结构,如下图),但是发现导出的结构在 Greenplum中执行不了,mysql中的ddl语句: `CONFIG_ID` varchar(36) COLLATE utf8_unicode_ci NOT NULL COMMENT '软件老王' 解决办法 (1)网上找了mysql转postgresql的java代码,写的不是太全面,改了几次还是有点问题,放弃。 (2)问了下dba,用的Navicat Premium 12 可以转,网址: https://www.navicat.com.cn/ Navicat Premium可以同时操作多个数据库,包括:mysql和greenplum(postgresql)

GreenPlum 最佳实践

江枫思渺然 提交于 2019-11-28 23:04:07
数据模型 Greenplum数据库是一种shared nothing的分析型MPP数据库。这种模型与高度规范化的/事务型的SMP数据库有显著区别。Greenplum数据库使用非规范化的模式设计会工作得最好,非规范化的模式适合于MPP分析型处理,例如带有大型事实表和较小维度表的星形模式或者雪花模式。 对表中用于连接的列使用相同的数据类型。 堆存储 vs. 追加优化存储 对将会接收迭代批量或者单一UPDATE、DELETE以及INSERT操作的表和分区使用堆存储。 对将会接收并发UPDATE、DELETE以及INSERT操作的表和分区使用堆存储。 对于在初始装载后很少更新并且只会在大型批处理操作中进行后续插入的表和分区,使用追加优化存储。 绝不在追加优化表上执行单个INSERT、UPDATE或者DELETE操作。 绝不在追加优化表上执行并发的批量UPDATE或DELETE操作。可以执行并发的批量INSERT操作。 行存 vs. 列存 如果负载中有要求更新并且频繁执行插入的迭代事务,则对这种负载使用行存。 在对宽表选择时使用行存。 为一般目的或混合负载使用行存。 选择面很窄(很少的列)和在少量列上计算数据聚集时使用列存。 如果表中有单个列定期被更新而不修改行中的其他列,则对这种表使用列存。 压缩 在大型追加优化和分区表上使用压缩以改进系统范围的I/O。 在数据位于的级别上设置列压缩设置。

Greenplum failed segment的恢复方法--primary与mirror都可修复

前提是你 提交于 2019-11-28 18:04:14
  当在使用greenplum过程中有不当的操作时,可能会出现segment节点宕掉的情况(比如在greenplum运行的过程中停掉其中几台segment节点的服务器),通过下面的方法可以恢复segment。 下面是现场出现的故障情况: [gpadmin@tj-soc-c04-csfb1 ~]$ gpstate -m 20161010:16:35:54:026100 gpstate:tj-soc-c04-csfb1:gpadmin-[INFO]:-Starting gpstate with args: -m 20161010:16:35:55:026100 gpstate:tj-soc-c04-csfb1:gpadmin-[INFO]:-local Greenplum Version: 'postgres (Greenplum Database) 4.3.6.2 build 1' 20161010:16:35:55:026100 gpstate:tj-soc-c04-csfb1:gpadmin-[INFO]:-master Greenplum Version: 'PostgreSQL 8.2.15 (Greenplum Database 4.3.6.2 build 1) on x86_64-unknown-linux-gnu, compiled by GCC gcc (GCC) 4

设置greenplum用户和密码访问:

倖福魔咒の 提交于 2019-11-28 15:35:08
设置greenplum用户和密码访问: 1、创建gp用户 create user tableau with nosuperuser nocreatedb password 'tableau' ; 2、赋表的读的权限 create table test( id integer ) GRANT select on table test to tableau; 3、设置配置文件: vim /extsdd1/gpadmin/data/master/gpseg-1/pg_hba.conf 增加下面两行: host all gpadmin 0.0.0.0/0 trust host all tableau 0.0.0.0/0 md5 来源: https://www.cnblogs.com/zhangwensi/p/11413146.html

Greenplum错误信息日志查询

泪湿孤枕 提交于 2019-11-28 05:07:24
[Greenplum错误信息日志查询] 关于错误信息的查询与解决。 最近工作经常遇到导入信息失败或者是导入后少了。 如图采集日志显示这个报表有778条错误信息。 初期猜测是oracle库采集到 greenplum库数据字段类型不正确导致的 连接上服务器,进行日志导出操作步骤如下。 直接到4695(运行编号为该日志存放处) linux命令: cd /4694 linux命令:** vi 表名.yml ** (开发个我说这里用的是yml文件。说是比较方便数据处理) (查的是上一个任务4694的日志) 进去后 最后一行加上PRELOAD: REUSE_TABLES: true (按esc保存 :wq退出) —一定要保存 修改后可以用cat 命令查看一下是否有修改成功。 而后执行导出命令。(导出到对应的greenplum数据库) gpload -f 对应的文件名.yml 然后把这一语句复制出来在数据库操作页面执行一下这里用的是Navicat **select * from gp_read_error_log(‘ext_gpload_reusable_5bda185c_1edd_11e9_8265_c81f66d0250b’) where cmdtime > to_timestamp(‘1548227168.91’) ** 来源: https://blog.csdn.net/qq

海量数据处理利器greenplum——初识

喜欢而已 提交于 2019-11-27 00:34:22
本文转自https://www.cnblogs.com/skyme/p/5779885.html 简介及适用场景 如果想在数据仓库中快速查询结果,可以使用greenplum。 Greenplum数据库也简称GPDB。它拥有丰富的特性: 第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。 第二,支持分布式事务,支持ACID。保证数据的强一致性。 第三,做为分布式数据库,拥有良好的线性扩展能力。在国内外用户生产环境中,具有上百个物理节点的GPDB集群都有很多案例。 第四,GPDB是企业级数据库产品,全球有上千个集群在不同客户的生产环境运行。这些集群为全球很多大的金融、政府、物流、零售等公司的关键业务提供服务。 第五,GPDB是Greenplum(现在的Pivotal)公司十多年研发投入的结果。GPDB基于PostgreSQL 8.2,PostgreSQL 8.2有大约80万行源代码,而GPDB现在有130万行源码。相比PostgreSQL 8.2,增加了约50万行的源代码。 第六,Greenplum有很多合作伙伴