ClickHouse

ClickHouse奇技淫巧系列之SQL查文件

核能气质少年 提交于 2020-08-17 03:56:38
history | awk '{print $1"\t"$2}' | clickhouse -client \ --query="SELECT shell, count() AS c FROM history \ GROUP BY shell ORDER BY c DESC limit 10 " \ --external --file=- --name=history \ --structure='id UInt16, shell String' -h 127.0.0.1 ls 390 cd 243 clickhouse -client 173 du 67 vim 57 htop 42 cat 28 history 27 tailf 25 mysql 24 参考资料 https://www.cnblogs.com/zqr99/p/9939418.html https://www.jianshu.com/p/2e49edbeb1ef https://www.jianshu.com/p/8875dede8db7?clicktime=1578014751 来源: oschina 链接: https://my.oschina.net/u/4381796/blog/4281472

阿里云峰会 | 高并发扛不住、复杂查询慢、数据存不下?

旧街凉风 提交于 2020-08-15 14:11:37
阿里云峰会直播地址 2020年6月9日,“全速重构”2020阿里云·线上峰会即将隆重召开。 在此次峰会上,阿里云数据库重磅发布云原生分布式数据库 PolarDB-X 、云原生数据仓库AnalyticDB、数据库自治服务DAS、云数据库专属集群、图数据库GDB、云数据库Cassandra版、云数据库ClickHouse7款跨时代产品,用技术倾情打造新数字时代的基石! 今天小编为大家倾情呈现PolarDB-X 产品亮点抢先看! 自研云原生分布式数据库PolarDB-X强势来袭! PolarDB-X是由阿里巴巴自主研发的云原生分布式数据库,融合分布式SQL引擎DRDS与分布式自研存储X-DB,基于云原生一体化架构设计,可支撑千万级并发规模及百PB级海量存储。专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题,历经各届天猫双11及阿里云各行业客户业务的考验,助力企业加速完成业务数字化转型 。 PolarDB-X客户业务痛点全解析 在线业务超高并发,扛不住! PolarDB-X将业务数据及访问压力分摊至多个计算、存储节点之上,平稳解决在线业务超高并发难题 复杂分析查询,性能慢! 针对在线业务PolarDB-X提供 Parallel Query 以及 MPP 并行加速能力,可大幅提升海量数据下复杂分析查询的执行效率 海量业务数据,存不下! 通过水平拆分PolarDB

开源软件创建SOC的一份清单

时光怂恿深爱的人放手 提交于 2020-08-14 06:17:49
https://www.freebuf.com/articles/network/169632.html 0×01 概要 现在各个公司都有自己的SOC安全日志中心,有的是自己搭建的,有的是买厂商的,更多的情况是,各种复合类的的组织结构。这些日志来自不同的服务器,不同的部门五花八门。如果是买的设备,设备可能是一整套的方案,有自己的流理量监听与安全日志中心,但因为成本的原因,不能所有地方都都部署商业产品,必然会有自己的SOC系统,商业系统也不可能去监听分析,太边界的日志,处理起来也力不从心,首先本地化的数据不通用,商用产品也没法构建安全策略。开源和自己构建的系统可以高度的定制化,但与商业产品不能有机的结合,就没办法发挥最大效用。 0×02 需求分析 抛出问题,我们首先要收集各种日志,监听流量,让设备去发现流量中的威胁,我们来汇总报告数据,结合我们收集来的所有数据,去溯源,去发现更多的历史痕迹。内网安全和外网不一样的地方是,内网有各种日志和设备,采用什么方式取,什么方式存,用什么工具,可能都不统一。但总来说,我们主要的手段监听危险行为:1.分析流量;2.分析日志。 像tenable这种工具,就是提供了全栈系列的解决方案。 她会把流量中各种协议解析出来配合自己的策略报警,还提供了与外部系统交互的方式,syslog和rest api都是典型变互手段,paloato的IDS也一样

linux 安装clickhouse

六月ゝ 毕业季﹏ 提交于 2020-08-14 05:32:46
linux 安装clickhouse https://www.cnblogs.com/change4now/p/11443882.html https://blog.csdn.net/weixin_34248487/article/details/91636006 https://blog.csdn.net/otmqixi/article/details/81564515 https://www.cnblogs.com/tsxylhs/p/7837707.html https://blog.csdn.net/zwq_zwq_zwq/article/details/80791226 安装yum: https://blog.csdn.net/qq805934132/article/details/82901568 wget http://mirrors.163.com/centos/7/os/x86_64/Packages/python-iniparse-0.4-9.el7.noarch.rpm wget http://mirrors.163.com/centos/7/os/x86_64/Packages/yum-metadata-parser-1.1.4-10.el7.x86_64.rpm wget http://mirrors.163.com/centos/7/os/x86_64

ClickHouse大数据分析技术与实战

北战南征 提交于 2020-08-14 00:26:46
ClickHouse大数据分析技术与实战课程 课程基于ClickHouse的最新的20.x版本,从理论到实践,由浅入深详解ClickHouse的原理和使用。 本课程从零开始,有Linux操作系统和SQL使用经验即可。 课程以案例驱动,包含大量的实践案例。 将ClickHouse与MySQL、Kafka、HDFS等第三方系统集成,增强ClickHouse的功能。 课程覆盖面广,既有基础功能的详细讲解, 也包含了集群部署、查询优化、运维管理等高级内容。 来源: oschina 链接: https://my.oschina.net/u/4334316/blog/4316430

ClickHouse 源码阅读 —— SQL的前世今生

大憨熊 提交于 2020-08-13 14:38:02
注:以下分析基于开源 v19.15.2.2-stable 版本进行,社区最新版本代码改动较大,但是总体思路是不变的。 用户提交一条查询SQL背后发生了什么? 在传统关系型数据库中,SQL处理器的组件主要包括以下几种: • Query Parsing 负责进行词法和语法分析,把程序从人类高可读的格式(即SQL)转化成机器高可读的格式(AST,抽象语法树)。 词法分析指的是把SQL中的字符序列分解成一个个独立的词法单元——Token(<类型,值>)。 语法分析指的是从词法分析器输出的token中识别各类短语,并构造出一颗抽象语法树。而按照构造抽象语法树的方向,又可以把语法分析分成自顶向下和自底向上分析两种。而ClickHouse采用的则是手写一个递归下降的语法分析器。 • Query Rewrite 即通常我们说的"Logical Optimizer"或基于规则的优化器(Rule-Based Optimizer,即RBO)。 其负责应用一些启发式规则,负责简化和标准化查询,无需改变查询的语义。 常见操作有:谓词和算子下推,视图展开,简化常量运算表达式,谓词逻辑的重写,语义的优化等。 • Query Optimizer 即通常我们所说的"Physical Optimizer",负责把内部查询表达转化成一个高效的查询计划,指导DBMS如何去取表,如何进行排序,如何Join。如下图所示

ClickHouse 源码阅读 —— SQL的前世今生

百般思念 提交于 2020-08-13 10:55:03
注:以下分析基于开源 v19.15.2.2-stable 版本进行,社区最新版本代码改动较大,但是总体思路是不变的。 用户提交一条查询SQL背后发生了什么? 在传统关系型数据库中,SQL处理器的组件主要包括以下几种: • Query Parsing 负责进行词法和语法分析,把程序从人类高可读的格式(即SQL)转化成机器高可读的格式(AST,抽象语法树)。 词法分析指的是把SQL中的字符序列分解成一个个独立的词法单元——Token(<类型,值>)。 语法分析指的是从词法分析器输出的token中识别各类短语,并构造出一颗抽象语法树。而按照构造抽象语法树的方向,又可以把语法分析分成自顶向下和自底向上分析两种。而ClickHouse采用的则是手写一个递归下降的语法分析器。 • Query Rewrite 即通常我们说的"Logical Optimizer"或基于规则的优化器(Rule-Based Optimizer,即RBO)。 其负责应用一些启发式规则,负责简化和标准化查询,无需改变查询的语义。 常见操作有:谓词和算子下推,视图展开,简化常量运算表达式,谓词逻辑的重写,语义的优化等。 • Query Optimizer 即通常我们所说的"Physical Optimizer",负责把内部查询表达转化成一个高效的查询计划,指导DBMS如何去取表,如何进行排序,如何Join。如下图所示

ClickHouse内核分析-MergeTree的Merge和Mutation机制

懵懂的女人 提交于 2020-08-13 04:09:36
引言 ClickHouse内核分析系列文章,继上一篇文章 MergeTree查询链路 之后,这次我将为大家介绍MergeTree存储引擎的异步Merge和Mutation机制。建议读者先补充上一篇文章的基础知识,这样会比较容易理解。 MergeTree Mutation功能介绍 在上一篇系列文章中,我已经介绍过ClickHouse内核中的MergeTree存储一旦生成一个Data Part,这个Data Part就不可再更改了。所以从MergeTree存储内核层面,ClickHouse就不擅长做数据更新删除操作。但是绝大部分用户场景中,难免会出现需要手动订正、修复数据的场景。所以ClickHouse为用户设计了一套离线异步机制来支持低频的Mutation(改、删)操作。 Mutation命令执行 ALTER TABLE [db.]table DELETE WHERE filter_expr; ALTER TABLE [db.]table UPDATE column1 = expr1 [, ...] WHERE filter_expr; ClickHouse的方言把Delete和Update操作也加入到了Alter Table的范畴中,它并不支持裸的Delete或者Update操作。当用户执行一个如上的Mutation操作获得返回时,ClickHouse内核其实只做了两件事情:

AnalyticDB实现和特点浅析

泄露秘密 提交于 2020-08-10 22:09:14
目录 AnalyticDB介绍与背景 AnalyticDB详细解析 架构设计 数据分区 读写分离和读写流程 其他特性介绍 混合(列-行)存储引擎 索引 小结 本篇主要是根据AnalyticDB的论文,来讨论AnalyticDB出现的背景,各个模块的设计,一些特性的解析。可能还会在一些点上还会穿插一些与当前业界开源实现的比对,希望能够有一个更加深入的探讨。OK,那我们开始吧。 AnalyticDB介绍与背景 要说AnalyticDB,那起码得知道它是干什么的。这里直接贴下百度百科的介绍: AnalyticDB是阿里云自主研发的一款实时分析数据库,可以毫秒级针对千亿级数据进行即时的多维分析透视。 简单地说,就是实时OLAP型数据库,它的对标产品是Apache Kylin,Apache Druid,Clickhouse这些。然后AnalyticDB的特点, 包括高并发实时摄入数据,兼容Mysql协议,无需预计算即可有的极快响应时间,多种数据源接入,大规模集群管理等 。好吧,这几个特点都很官方,不急,接下来会逐渐讨论各个点。 然后介绍下AnalyticDB的背景。 首先先说说传统的OLAP型数据仓库,以往构建OLAP型数据仓库通常都是采用离线模式, 即在晚上设置定时任务将前一天的数据同步到数据仓库中,第二天数据分析师或报表工具就可以根据数据产出分析结果 。但这样的问题是数据延迟太高了

HDFS+ClickHouse+Spark:从0到1实现一款轻量级大数据分析系统

拈花ヽ惹草 提交于 2020-08-10 04:25:02
在产品精细化运营时代,经常会遇到产品增长问题:比如指标涨跌原因分析、版本迭代效果分析、运营活动效果分析等。这一类分析问题高频且具有较高时效性要求,然而在人力资源紧张情况,传统的数据分析模式难以满足。本文尝试从0到1实现一款轻量级大数据分析系统——MVP,以解决上述痛点问题。 文章作者:数据熊,腾讯云大数据分析工程师。 一、背景及问题 在产品矩阵业务中,通过仪表盘可以快速发现增长中遇到的问题。然而,如何快速洞悉问题背后的原因,是一个高频且复杂的数据分析诉求。 如果数据分析师通过人工计算分析,往往会占用0.5-1天时间才能找到原因。因此,人工计算分析方式,占用人力大,且数据分析效率低。 另外,产品版本迭代与业务运营活动,也需要对新版本、新功能、新活动进行快速数据分析,已验证效果。 因此,在产品矩阵业务精细化运营中,存在大量的数据分析诉求,且需要快速完成。 在传统的数据分析模式下,对于每个需求,一般需要经历3-5天才能解决问题。除此之外,该模式还需要大量数据分析师对接需求。因此,在数据分析师人力紧缺情况下,该模式无法满足产品增长的数据分析诉求。 二、解决办法 在传统数据分析模式失效情况下,急需开拓新的数据分析模式,以快速满足产品增长的数据分析诉求。 为此,笔者和项目小团队从0到1实现一款轻量级大数据分析系统——MVP,希望通过MVP数据分析,驱动产品从"Minimum Viable