greenplum

PSQL - Select size of tables for both partitioned and normal

帅比萌擦擦* 提交于 2020-01-17 04:54:51
问题 Thanks in advance for any help with this, it is highly appreciated. So, basically, I have a Greenplum database and I am wanting to select the table size for the top 10 largest tables. This isn't a problem using the below: select sotaidschemaname schema_name ,sotaidtablename table_name ,pg_size_pretty(sotaidtablesize) table_size from gp_toolkit.gp_size_of_table_and_indexes_disk order by 3 desc limit 10 ; However I have several partitioned tables in my database and these show up with the above

greenplum数据库引擎探究

余生长醉 提交于 2020-01-16 05:09:36
Greenplum做为新一代的数据库引擎,有着良好的发展与应用前景。强大的工作效率,低成本的硬件平台对数据仓库与商业智能建设有很大的吸引力。要清楚的了解其特点最好从架构着手。 架构分析 Greenplum的高性能得益于其良好的体系结构。Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配 (Data Redistribution) 。与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。当前使用的OTLP程序中,用户访问一个中心数据库,如果采用SMP系统结构,它的效率要比采用MPP结构要快得多。而MPP系统在决策支持和数据挖掘方面显示了优势,可以这样说,如果操作相互之间没有什么关系,处理单元之间需要进行的通信比较少

超强数据源覆盖能力,永洪科技BI产品全面支持Greenplum

故事扮演 提交于 2020-01-10 19:02:33
近日,永洪科技一站式大数据分析平台Yonghong Z-Suite全面支持Greenplum,其强大的开放性和兼容性可更好服务广大客户,满足企业客户数字化转型的需求。 Greenplum为全球开源、多云大数据平台,专为高级分析而打造,被Gartner列为全球十大经典和实时数据分析产品中唯一开源数据库。 超强数据源覆盖能力,永洪科技BI产品全面支持Greenplum Greenplum大数据平台基于MPP(大规模并行处理)架构,具有良好的弹性和线性扩展能力,内置并行存储、并行通讯、并行计算和优化技术,兼容SQL标准,具备强大、高效、安全的PB级结构化、半结构化和非结构化数据存储、处理和实时分析能力,目前比较广泛应用的版本是Greenplum 5.3。 永洪科技BI产品专门支持使用jdbc的方式连接Greenplum。用户连接后可以直接在SQL数据集中通过简单的拖拽或者写SQL的方式进行查询。 拥有完全自主知识产权的Yonghong Z-Suite全面覆盖数据分析过程中的各个环节,包括数据采集、清洗、整合、存储、计算、建模、训练、展现、协作等,让客户可以在一个统一的平台上完成全流程数据分析任务,极大降低了实施、集成、培训的成本,帮助企业轻松构建数据应用。因具有高性能、自服务、极致易用、移动跨屏、AI深度分析等突出优势,Yonghong Z-Suite自诞生之日起,便受到了企业客户的青睐

GreenPlum 安装方法详解

梦想的初衷 提交于 2020-01-04 19:49:50
一、安装环境准备 1 、 磁盘环境准备 磁盘分区典型配置如下: 文件系统 文件格式 大小 / ext3 50GB,Linux系统的根目录,所有的目录都挂在这个目录下面,建议大小为5GB以上 /boot ext3 用来存放与Linux系统启动有关的程序,比如启动引导装载程序等,建议大小为200MB swap swap 1*RAM,实现虚拟内存,建议大小是物理内存的1~2倍 /usr ext3 用来存放Linux系统中的应用程序,其相关数据较多,建议大于3GB以上 /var ext3 用来存放Linux系统中经常变化的数据以及日志文件,建议大于1GB以上 /tmp ext3 将临时盘在独立的分区,可避免在文件系统被塞满时影响到系统的稳定性。建议大小为500MB以上 /data1 xfs 依据数据量而定 /data2 xfs 依据数据量而定 /home ext3 存放普通用户的数据,是普通用户的宿主目录,建议大小为剩下的空间 2 、 设置GP 推荐的OS 参数 注:标示“三台主机”的表示要在三台电脑上都做该操作,“master节点”表示只在mdw主机上操作 hostname ip 内存 硬盘 mdw 192.168.10.200 500M 8G sdw1 192.168.10.201 500M 8G sdw2 192.168.10.202 500M 8G Greenplum 需要在GP

Greenplum批量操作,数据库里面作删除更新速度最快

余生长醉 提交于 2019-12-27 02:40:59
这是记一次线上GP大数据库 大量重复问题解决方案 1 建临时表,把重复的数据备份,2 在备份库用查询条件去删除正式表 最近在玩Greenplum 数据库, 一款分布式的数据库 ,MPP架构,但是有好的也有不如意的,总体感觉还是不错,底层数据库还是用PostgreSQL8.2版本, 因为我是GP4.2嘛, 最新版本的GP6.0是基本PostgreSQL9.2,在性能上提高了不少。 先说下,遇到的坑和一些数据问题,删除数据和更新数据, 分区表等一些概念 依赖 放在项目的lib下面 <dependency> <groupId>com.fbcds</groupId> <artifactId>fbcds</artifactId> <version>1.0</version> <scope>system</scope> <systemPath>${project.basedir}/src/main/resources/lib/greenplum.jar</systemPath> </dependency> 连接数据库,当然还有其它的方法查询封装 // 饿汉式 private static DruidDataSource dataSource = null; static { dataSource = new DruidDataSource(); dataSource

Greenplum to file using PSQL

我们两清 提交于 2019-12-25 07:12:04
问题 I'm trying to export data from Green-plum to a text file(client) with pipe delimiter using PSQL and \copy. In the output i see single slash is converted to double slash and tab is converted \t. Example N\A is converted to N\\A So how to get just N\A instead N\\A and just spaces instead of \t ? Note: i`m allowed to use only \copy. Since my file is huge im getting space issue while use SED or Perl for find and replace 回答1: Assuming you don't have any "^" characters, you could use that as the

How to dump the large object data from Postgres 9.4, and then import it to Postgres8.x?

拟墨画扇 提交于 2019-12-24 06:39:00
问题 I used pg_dump to export the data including large objects (LO) from Postgres 9.4 like this: $ pg_dump fhir -O -b > fhir.sql The LO statements in my generated fhir.sql are like this: SET standard_conforming_strings = on; SELECT pg_catalog.lowrite(0, '\x1f8b0800000000000000a5903b6ec3300c86efa2d9b1dad5a728daa2'); When I executed \i fhir.sql in my Postgres8.2, I got this error: ERROR: invalid input syntax for type bytea When I SET standard_conforming_strings = off , the data was inserted, but I

GreenPlum5安装记录

我与影子孤独终老i 提交于 2019-12-20 17:55:28
GreenPlum5安装记录 安装前准备 挂载磁盘 # fdisk -l # 查看磁盘信息 # df -h # 查看磁盘使用 # 创建本地文件夹 mkdir /data1 # 格式化磁盘 mkfs -t ext4 /dev/vdb # 挂载 mount /dev/vdb /data1 # 开机自动挂载 # vim /etc/fstab /dev/vdb /data1 ext4 defaults 0 0 # 执行 mount -a ​ 关闭SELINUX cat /etc/selinux/config SELINUX=disabled 依次执行: systemctl stop firewalld.service , systemctl disable firewalld.service 。 查看防火墙状态`systemctl status firewalld.service 配置hosts 集群中建议如下命名,方便统一管理: mdw: Master smdw: Master Standby sdw0: Segment 1 …… sdwn: Segment n 172.26.78.203 mdw sdw3 172.26.78.204 sdw1 172.26.78.205 sdw2 smdw 操作系统参数设置 vim /etc/sysctl.conf kernel.shmmax =

How to use a SQL window function to calculate a percentage of an aggregate

人盡茶涼 提交于 2019-12-20 09:19:41
问题 I need to calculate percentages of various dimensions in a table. I'd like to simplify things by using window functions to calculate the denominator, however I am having an issue because the numerator has to be an aggregate as well. As a simple example, take the following table: create temp table test (d1 text, d2 text, v numeric); insert into test values ('a','x',5), ('a','y',5), ('a','y',10), ('b','x',20); If I just want to calculate the share of each individual row out of d1, then

greenplum单机安装

回眸只為那壹抹淺笑 提交于 2019-12-20 05:01:19
在单机上安装master节点,并安装两个seg 1、关掉不需要的服务 (root用户) systemctl stop firewalld.service systemctl disable firewalld.service service iptables save service iptables stop chkconfig iptables off service ip6tables save service ip6tables stop chkconfig ip6tables off 2、修改主机名 (root用户) vi /etc/hostname mdw 3、在更改/etc/hosts (root用户) vi /etc/hosts 127.0.0.1 mdw 4、更改系统参数 (root用户) 4.1 vi /etc/sysctl.conf #By greenplum net.ipv4.ip_forward = 0 net.ipv4.conf.default.accept_source_route = 0 kernel.sysrq = 1 kernel.core_uses_pid = 1 net.ipv4.tcp_syncookies = 1 kernel.msgmnb = 65536 kernel.msgmax = 65536 kernel.sem = 250