Apache Drill

未来已来,腾讯AI计算网络

a 夏天 提交于 2021-01-04 08:41:18
欢迎大家前往 腾讯云+社区 ,获取更多腾讯海量技术实践干货哦~ 作者:由 鹅厂网事 发表在 云+社区 "鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 毫无疑问,人工智能是近年IT界最火的研究方向,特别在2016年Alpha GO这一标志性事件后,国内外科技巨头持续加大对人工智能的投入。目前,人工智能的主要方向如图像识别、语音识别等等都是通过机器学习的方式,借助强大的计算平台对海量数据进行分析、计算,随着数据量的增长,单机性能已逐渐无法满足计算的需求,需要使用高性能计算(HPC, High Performance Computing)集群来进一步提升计算能力。 HPC集群是将多个计算节点组织在一起协同计算的分布式系统,它一般使用iWARP/RoCE/IB等RDMA(Remote Direct Memory Access)技术来完成计算节点内存间数据的快速交换。如图1所示,RDMA网卡可以从发送节点地址空间中取出数据,直接传送到接收节点的地址空间中,整个交互过程无需内核内存参与,从而大大降低了服务器侧的处理时延。同时,网络作为HPC集群的一部分,任何传输阻滞都会造成计算资源的浪费

YARN

旧时模样 提交于 2020-12-25 03:35:35
1. 什么是YARN Yet Another Resource Negotiator (另一种 资源 协调者),是一种新的Hadoop 资源 管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源 管理和调度 。 2. YARN架构 ResurceManager(RM) :一个纯粹的调度器,专门负责集群中可用资源的分配和管理。 Container :分配给具体应用的资源抽象表现形式,包括内存、cpu、disk NodeManager(NM) :负责节点本地资源的管理,包括启动应用程序的Container,监控它们的资源使用情况,并报告给RM App Master (ApplicationMaster(AM)) :特定框架库的一个实例,负责有RM协商资源,并和NM协调工作来执行和监控Container以及它们的资源消耗。AM也是以一个的Container身份运行。 客户端(Client) :是集群中一个能向RM提交应用的实例,并且指定了执行应用所需要的AM类型 3. 如何编写YARN应用程序 Client 初始化并启动一个YarnClient Configuration yarnConfig = new YarnConfiguration(getConf()); YarnClient client = YarnClient.createYarnClient(); client

BeetlSQL3.0.0-M5 发布,Spring框架集成

狂风中的少年 提交于 2020-12-05 05:42:51
BeetlSQL3.0.0-M5主要对Spring,Spring Boot ,JFinal,Solon等框架进行集成,并新增 ignite,CouchBase内存数据库的支持。 M6 计划对更多的国产数据库支持, 内存和图数据库支持。以及发布BeetlSQL3的Idea 插件。 <dependency> <groupId>com.ibeetl</groupId> <artifactId>beetlsql-all</artifactId> <version>3.0.0-M5</version> </dependency> 轻松集成Spring BeetlSQL的目标是提供开发高效,维护高效,运行高效的数据库访问框架,在一个系统多个库的情况下,提供一致的编写代码方式。 传统数据库:MySQL,MariaDB,Oralce,Postgres,DB2,SQL Server,H2,SQLite,Derby,神通,达梦,华为高斯,人大金仓等 大数据:HBase,ClickHouse,Cassandar,Hive 物联网时序数据库:Machbase,TD-Engine SQL查询引擎:Drill,Presto,Druid 内存数据库:ignite,CouchBase BeetlSQL 不仅仅是简单的类似MyBatis或者是Hibernate,或者是俩这的综合

【技术猩球】牛人分享:大数据架构师在关注什么?

别说谁变了你拦得住时间么 提交于 2020-11-21 01:49:25
在一个大数据团队中,大数据架构师主要关注的 核心问题就是技术架构选型问题 。架构选型问题一般会受到哪些因素的影响呢?在我们的实践中,一般大数据领域架构选型最受以下几个因素影响: 数据量级 这一点在大数据领域尤其是一个重要的因素。不过从根本上讲,数据量级本身也是一种业务场景的衡量。数据量级的不同往往也就昭示着业务场景的不同。 业务需求 经验丰富的大数据架构师能够从纷繁的业务需求中提炼出核心技术点,根据抽象的技术点选择合适的技术架构。主要的业务需求可能包括:应用实时性要求、查询的维度和灵活程度、多租户、安全审计需求等等。 维护成本 这一点上大数据架构师一方面要能够清楚的了解各种大数据技术栈的优劣势,在满足业务需求的要求下,能够充分的优化架构,合理的架构能够降低维护的成本,提升开发的效率。 另一方面, 大数据架构师要能清楚的了解自己团队成员,能了解其他同学的技术专长和品位,能够保证自己做的技术架构可以得到认可和理解,也能得到最好的维护和发展。 接下来我们会围绕这几个方面去看看,做一个最适合自己团队业务的架构选型会如何受到这些因素的影响? 技术架构选型 业务需求是五花八门的,往往影响我们做技术选型的不是种种需求的细节,而是经过提炼后的一些具体的场景。就好比,业务需求提出我们要做一个日志分析系统,或者要做一个用户行为分析系统,这些具体需求背后我们要关注哪些具体的点?这是一个很有趣的问题

Linux Tcp 内核协议栈学习三种武器 之 Packet Drill

99封情书 提交于 2020-11-11 19:45:52
作者简介 作者Liam,海外老码农,对应用密码学、CPU微架构、高速网络通信等领域都有所涉猎。 Linux阅码场原创文章 Linux TCP 内核协议栈是一个非常复杂的实现, 不但沉淀了过去20多年的设计与实现,同时还在不停的更新。相关的RFC与优化工作一直还在进行中。如何研究和学习Linux TCP内核协议栈这样一块硬骨头就成了一大难题。 当然最重要也是最基本的还是要阅读相关的RFC和内核中的代码实现。这个是最最基本的要求。想要驯服TCP 内核协议栈这样的monster 仅仅浏览和静态分析代码是完全不够的。因为整个实现中充斥着各种边界条件和异常的处理(这里有部分原因是因为TCP协议本身设计造成的),尤其是TCP是有状态的协议, 很多边界条件的触发需要一系列的报文来构成,同时还需要满足时延等其它条件。 幸运的是Google在2013年替大家解决了这个难题。Google 在2013 年发布了TCP 内核协议栈 测试工具 Packet Drill。这个工具是名副其实,大大的简化了学习和测试TCP 内核协议栈的难度。基本可以随心所欲的触摸TCP 内核协议栈的每个细节。Google的这件工具真是造福了人类。PacketDrill GitHub link: https://github.com/google/packetdrill/ 使用Packet Drill,

Oracle with as 嵌套

偶尔善良 提交于 2020-11-09 20:27:31
oracle with as可以理解为临时视图,可以极大的简化sql语句,并且支持嵌套使用。 With c3 As ( Select * From v_tr_daily Where p_date = to_date( ' 2019-05-21 ' , ' yyyy-mm-dd ' )) ,c1 As ( Select type_id,dept_id,drill_dept, sum (mine_ore0) From c3 Where type_id = 1 Group By type_id,dept_id,drill_dept ) Select * From c1 还可以用在insert语句中,如下: insert into t1 With c3 As ( Select * From v_tr_daily Where p_date = to_date( ' 2019-05-21 ' , ' yyyy-mm-dd ' )) ,c1 As ( Select type_id,dept_id,drill_dept, sum (mine_ore0) From c3 Where type_id = 1 Group By type_id,dept_id,drill_dept ) Select * From c1 来源: oschina 链接: https://my.oschina.net/u

架构制图:工具与方法论

爷,独闯天下 提交于 2020-10-10 12:34:01
简介: 软件工程也是工程,因此传统工程制图的一些基本理论,在软件行业同样适用。但另一方面,软件与实体制造业之间还是有着本质区别,所以在制图方面的需求和方式也大相径庭,无法直接套用。作为软件行业的从业者,你可以完全不懂工程制图,但你不得不懂架构制图 —— 这是任何程序员职业生涯的的必修课。 作者 | 楚衡 前言 “架构制图”这词乍一听似乎有些晦涩,但如果提起“工程制图”,相信绝大部分工科背景的程序员们都不会陌生,甚至还能共同感慨下那些年一起伏在宿舍左手圆规,右手直尺,徒手作图到深夜的日子。 软件工程也是工程 ,因此传统工程制图的一些基本理论,在软件行业同样适用。但另一方面,软件与实体制造业之间还是有着本质区别,所以在制图方面的需求和方式也大相径庭,无法直接套用。作为软件行业的从业者,你可以完全不懂工程制图,但你不得不懂架构制图 —— 这是任何程序员职业生涯的的必修课。 本文在后半段将介绍如何用图去 描述 (describe)和 传达 (communicate)你的架构设计。值得强调的是,本文并不会侧重于单一的方法和工具,而是更希望关注那些优秀方法背后的通用方法论,即架构制图的 本质 、 共性 和 最佳实践 。希望本文能起到引子作用,激发大家对自己日常工作中关于架构和制图部分的关注、审视与思考;如果还真能帮助大家提升一点点制图效率和效果,那就更好不过了。 什么是软件架构? 1.

常见的数据分析工具有哪些?

泄露秘密 提交于 2020-09-28 12:02:07
众所周知,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。它的含义十分广泛,并庞大复杂,需要有专门设计的硬件和软件工具来进行数据处理和分析。下面给大家推荐几款常见好用的数据分析工具,以供参考选择。 Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。 HPCC HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能

BeetlSQL3.0 难搞

[亡魂溺海] 提交于 2020-08-18 21:24:59
最近想支持一下nosql,难搞,每个nosql server,都很难一天掌握安装和基础用法,所以先决定选用clickhouse ,apache drill (操作文件),Cassandra,这三个下手 hadoop系列也挺好的,但确实没时间搞了,想在9月份之前把beetlsql3搞出来,感觉臣妾做不到哇。 发一个网友修改的springboot-plus项目截图,挺好看,希望他能坚持完善plus项目,希望9月能继续把plus完善一下,比如支持多库。 至于微服务支持,我还是觉得大部分后台管理系统,不需要微服务 来源: oschina 链接: https://my.oschina.net/xiandafu/blog/4298195

如何使用Firebug或类似工具调试JavaScript / jQuery事件绑定?

爱⌒轻易说出口 提交于 2020-08-16 14:16:55
问题: I need to debug a web application that uses jQuery to do some fairly complex and messy DOM manipulation. 我需要调试一个使用jQuery进行一些相当复杂和混乱的 DOM 操作的Web应用程序。 At one point, some of the events that were bound to particular elements, are not fired and simply stop working. 某一时刻,某些与特定元素绑定的事件并未触发,只是停止工作。 If I had a capability to edit the application source, I would drill down and add a bunch of Firebug console.log() statements and comment/uncomment pieces of code to try to pinpoint the problem. 如果我有能力编辑应用程序源代码,那么我将向下钻取并添加一堆 Firebug console.log() 语句和注释/取消注释代码段以尝试找出问题所在。 But let's assume I cannot edit the