Druid | 易学教程

Delta Lake 如何帮助云用户解决数据实时入库问题

阅读更多关于 Delta Lake 如何帮助云用户解决数据实时入库问题

嘉宾简介：辛现银，花名辛庸，阿里巴巴计算平台事业部 EMR 技术专家，Apache Hadoop，Apache Spark contributor，对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作，专注于计算引擎、存储结构、数据库事务等内容，今天为大家介绍Delta Lake 如何帮助云用户解决数据实时入库的问题。直播回放： https://developer.aliyun.com/live/2894 以下是视频内容精华整理。一、CDC简介 CDC是Change Data Capture的缩写，也就是改变数据捕获。比如在最开始的时候我们用工具将业务数据导入数据仓库、数据湖当中，之后导入数据的时候我们希望反映数据的动态变化，进行增量导入，并且能够尽快的捕获这些变化数据，以便更快地进行后来源： oschina 链接： https://my.oschina.net/u/4274636/blog/4334809

自己动手写SQL执行引擎

阅读更多关于自己动手写SQL执行引擎

自己动手写SQL执行引擎前言在阅读了大量关于数据库的资料后，笔者情不自禁产生了一个造数据库轮子的想法。来验证一下自己对于数据库底层原理的掌握是否牢靠。在笔者的github中给这个database起名为Freedom。整体结构既然造轮子，那当然得从前端的网络协议交互到后端的文件存储全部给撸一遍。下面是Freedom实现的整体结构，里面包含了实现的大致模块: 最终存储结构当然是使用经典的B+树结构。当然在B+树和文件系统block块之间的转换则通过Buffer(Page) Manager来进行。当然了，为了完成事务，还必须要用WAL协议，其通过Log Manager来操作。 Freedom采用的是索引组织表，通过DruidSQL Parse来将sql翻译为对应的索引操作符进而进行对应的语义操作。 MySQL Protocol结构 client/server之间的交互采用的是MySQL协议，这样很容易就可以和mysql client以及jdbc进行交互了。 query packet mysql通过3byte的定长包头去进行分包，进而解决tcp流的读取问题。再通过一个sequenceId来再应用层判断packet是否连续。 result set packet mysql协议部分最复杂的内容是其对于result set的读取，在NIO的方式下加重了复杂性。

druid连接池工具类的使用

阅读更多关于 druid连接池工具类的使用

优化和简化数据库的编写 1)数据库连接池: (1)避免频繁向os申请连接,频繁操作完就关闭这样比较耗时; 2)SpringJdbc: JDBC Template -->简单的jdbc的封装 (1)我们只关心sql语句; (2)根据查询结果,封装对象的地方比较复杂; 每次都要获取连接进行操作封装查询结果释放连接不是: 每次服务完后,就把服务员开除. 而是: 招聘一批服务员, 3)访问数据库,是从容器中获取一个链接,使用完毕后,把连接归还给容器; 毕竟获取连接的操作,是向系统申请资源,比较慢; 4)数据库连接池: (1)概念: 其实就是一个容器(集合),存放该数据库连接的容器. 当系统初始化好后,容器被创建,容器中会申请一些连接对象,当用户访问数据库时，从容器中获取连接对象, 用户访问完之后,会将连接对象归还给容器; (2)好处: 1:节约资源 2:更加高效(不用反复申请资源) 5)连接池实现: (1)标准接口: DataSource javax.sql包下 --》getConnection (2)一般我们不去实现它，而是数据库厂商去实现: c3p0: hibernate. 比较老; druid: 比较新. 是阿里巴巴实现的. 是非常高效,超过600个应用实现,全球性能非常高; dbcp... (3)归还连接: 如果连接对象Connection是从连接池中获取的

spring boot activiti vue工作流,权限管理框架

阅读更多关于 spring boot activiti vue工作流,权限管理框架

是什么？使用springboot,activiti,mybatis,vue elementui开发的后台管理系统（包含权限管理、工作流等功能），真正前后端分离的微服务架构,经过很多项目实战、淬炼、软件开发公司主流技术的集大成者。功能点、技术点前端采用vue element ui框架，后端spring boot,mybatis开发框架，数据库:mysql，前后端分离。采用activiti工作流工作流框架，自定义流程设计流程提供发起、跳转、转办、委派、授权、任务处理，人员角色获取、角色类型获取、会签等功能。采用安全框架 Spring Security (登录授权)实现组织机构、角色，人员、功能权限、数据权限功能。提供页面扩展功能，拖拽及可以扩展页面功能后端多模块项目（基础设施子项目、基础功能子项目、业务功能子项目），结构清晰、各子项目独立扩展、升级。后端系统组件化，提供分页、树形、通用查询数据结构，封装系统复杂度，只需要写出简单的业务代码，即能完成一个复杂的功能。前端项目多模块（基础组件、通用框架、基础功能，业务功能），结构清晰，子项目独立。前后端完美结合，很简单的代码即可以实现分页列表、树形等复杂页面。前端提供数字输入、货币输入（输入时自动中文货币提示）、百分比输入、整数输入、字典下拉、日期快捷输入、日期范围输入表单控件。

大数据的下一站是什么？服务/分析一体化

阅读更多关于大数据的下一站是什么？服务/分析一体化

作者：蒋晓伟（量仔）阿里巴巴研究员因为侧重点的不同，传统的数据库可以分为交易型的 OLTP 系统和分析型的 OLAP 系统。随着互联网的发展，数据量出现了指数型的增长，单机的数据库已经不能满足业务的需求。特别是在分析领域，一个查询就可能需要处理很大一部分甚至全量数据，海量数据带来的压力变得尤为迫切。这促成了过去十多年来以 Hadoop 技术开始的大数据革命，解决了海量数据分析的需求。与此同时，数据库领域也出现了一批分布式数据库产品来应对 OLTP 场景数据量的增长。为了对 OLTP 系统里的数据进行分析，标准的做法是把里面的数据定期（比如说每天）同步到一个 OLAP 系统中。这种架构通过两套系统保证了分析型查询不会影响线上的交易。但是定期同步导致了分析的结果并不是基于最新数据，这种延迟让我们失去了做出更及时的商业决策的机会。为了解决这个问题，近几年出现了 HTAP 的架构，这种架构允许我们对 OLTP 数据库里的数据直接进行分析，从而保证了分析的时效性。分析不再是传统的 OLAP 系统或者大数据系统特有的能力，一个很自然的问题是：既然 HTAP 有了分析的能力，它是不是将取代大数据系统呢？大数据的下一站是什么？背景为了回答这个问题，我们以推荐系统为例分析一下大数据系统的典型场景。当你看到购物应用给你展示正好想要买的商品，短视频应用播放你喜欢的音乐时

阿里巴巴开源canal 工具数据同步异常CanalParseException:parse row data failed，column size is not match for table....

阅读更多关于阿里巴巴开源canal 工具数据同步异常CanalParseException:parse row data failed，column size is not match for table....

一、异常现象截图二、解决方式： 1、背景早期的canal版本(<=1.0.24)，在处理表结构的DDL变更时采用了一种简单的策略，在内存里维护了一个当前数据库内表结构的镜像(通过desc table获取)。这样的内存表结构镜像的维护存在问题，如果当前在处理的binlog为历史时间段T0，当前时间为T1，存在的一些异常分支情况：假如在T0~T1的时间内，表结构A发生过增加列的DDL操作，那在处理T0时间段A表的binlog时，拿到的表结构为T1的镜像，就会出现列不匹配的情况. 比如之前的异常: column size is not match for table: xx , 12 vs 13 假如在T0~T1发生了增加 C1列、删除了C2列，此时拿到的列的总数还是和T0时保持一致，但是对应的列会错位假如在T0~T1发生了drop table的DDL，此时拿表结构时会出现无法找到表的异常，一直阻塞整个binlog处理，比如not found [xx] in db 补充一下MySQL binlog的一些技术背景：本文作者:张永清，转载请注明出处： https://www.cnblogs.com/laoqing/p/13187324.html MySQL的在记录DML(INSERT/UPDATE/DELETE)的binlog时

数据源管理 | OLAP查询引擎，ClickHouse集群化管理

阅读更多关于数据源管理 | OLAP查询引擎，ClickHouse集群化管理

本文源码： GitHub·点这里 || GitEE·点这里一、列式库简介 ClickHouse是俄罗斯的Yandex公司于2016年开源的列式存储数据库（DBMS），主要用于OLAP在线分析处理查询，能够使用SQL查询实时生成分析数据报告。列式存储行式存储和列式存储，数据在磁盘上的组织结构有着根本不同，数据分析计算时，行式存储需要遍历整表，列式存储只需要遍历单个列，所以列式库更适合做大宽表，用来做数据分析计算。絮叨一句：注意这里比较的场景，是数据分析计算的场景。二、集群配置 1、基础环境 ClickHouse单服务默认已经安装完毕 Linux下安装ClickHouse单机服务 SpringBoot整合ClickHouse列式数据库 2、取消文件限制 vim /etc/security/limits.conf vim /etc/security/limits.d/90-nproc.conf 文件末尾追加 * soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072 3、取消SELINUX 修改/etc/selinux/config中的SELINUX=disabled后重启 4、集群配置文件服务分别添加集群配置:vim /etc/metrika.xml <yandex>

Apache Druid 0.18.1 合并 segements

阅读更多关于 Apache Druid 0.18.1 合并 segements

文章首发于微信公众号，头条号。问题 Apache druid 中的实时任务默认一个小时生成一个segement (如果是老版本，一个小时生成的数量与Kafka 的partition 数量有关)，会导致集群产生大量的 segements.根据druid 的建议每个 segement大小 300M-700M. 有时需要进行compact . 向 overlord节点提交任务地址 http://overlord:port/druid/indexer/v1/task 任务内容保持原有granularity { "type": "compact", "dataSource": "call_record_test_2", "interval": "2015-04-01/2020-09-01", "tuningConfig" : { "type" : "index_parallel", "maxRowsPerSegment" : 5000000, "maxRowsInMemory" : 25000 } } 修改 granularity { "type": "compact", "dataSource": "compaction-tutorial", "interval": "2015-09-12/2015-09-13", "segmentGranularity": "DAY",

框架前奏二

阅读更多关于框架前奏二

5.数据连接方式解耦 5.1 BaseDao的问题 BaseDao这个JAVA类，包含如下java代码，与mysql数据库进行链接。当我们的项目部署到客户服务器上的时候，客户的user，password,news(dbname)有变化，可能也有多次更改，不可能由程序员再多次更改我们的java代码。这是不合理的。怎么办？思路：将这些需要配置的内容，放置到外部的配置文件 static String driver="com.mysql.cj.jdbc.Driver"; static String url="jdbc:mysql://localhost:3306/news?useTimezone=true&serverTimezone=CTT&useUnicode=true&characterEncoding=utf8&useSSL=false"; static String user="root"; static String password="root"; 5.2 使用外部的db.properties文件在src下根目录下，建立db.properties文件,这种文件和xml文件不同，里面放置的是key=value,格式的字符串 driver=com.mysql.cj.jdbc.Driver url=jdbc:mysql://localhost:3306/news?

spring boot 集成sharding-jdbc+ druid (shardingsphere)踩坑记录

阅读更多关于 spring boot 集成sharding-jdbc+ druid (shardingsphere)踩坑记录

坑一：druid 要使用spring 版本而不是spring boot 版本  <dependency> <groupId>com.alibaba</groupId> <artifactId>druid</artifactId> <version>1.1.22</version> </dependency> 坑二：sharding-jdbc 使用spring boot版本而不是spring 版本 <dependency> <groupId>org.apache.shardingsphere</groupId> <artifactId>sharding-jdbc-spring-boot-starter</artifactId> <version>4.1.1</version> </dependency> 来源： oschina 链接： https://my.oschina.net/u/4301555/blog/4404826

订阅 Druid