presto

presto spill to disk

谁说我不能喝 提交于 2020-11-14 12:27:05
概况 为了预防内存紧张的operator,presto允许将中间操作的结果转存到磁盘上。这个机制的目的是为了让那些需要的内存超过一台机器一个query内存限制的query能够执行。 这个机制类似于操作系统级的页交换。但是,它是被应用在应用程序级去满足presto的特殊需求。 溢写的属性在https://prestodb.io/docs/current/admin/properties.html#tuning-spilling这里描述 内存管理和溢写 默认情况下,presto杀掉那些执行内存超过会话属性query_max_memory 或 query_max_memory_per_node。这个机制保证内存的公平分配,防止内存分配造成死锁。当集群中有很多小查询的时候,这是非常有效的。但是会杀掉那些超过限制的大查询。 为了克服这个问题,可撤回的内存概念被提出。一个查询可以请求不限制的内存,但是这个内存可以被任何时候被内存管理回收。当内存被回收,这个查询在内存中的数据被溢写到磁盘上,稍后继续处理。 事实上,当集群是空闲的时候,所有内存都可以获取,一个消耗内存的查询可以用完整个集群的内存。相反的,当集群没有足够的内存,同样的查询当前的数据被强制写到磁盘上。被溢写到磁盘上的查询可能有一个较长的执行时间比完全在内存中运行。 请注意开启溢写到磁盘机制不保证消耗内存的查询运行成功

云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

我与影子孤独终老i 提交于 2020-10-31 17:39:39
简介: 数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。 行业综述 全民娱乐时代,网络互娱市场持续保持高速增长 随着互联网的普及以及技术的发展,互联网娱乐行业的发展也日渐成熟。从早期单一门户网站,到个人博客的流行,再到视频网站的壮大。以及这两年层出不穷的短视频、直播、资讯平台等,网络娱乐行业的发展也正在从内容为王,开始往大数据驱动内容创新与推广的方向进行发展。 随着生活条件的变好,人们进入了娱乐即生活,生活即娱乐的时代。如同互联网时代到来引爆信息爆炸一样,互联网娱乐的兴起和发展同样有爆发力。据统计,截至2019年6月,我国网络直播用户规模达4.33亿,较2018年底增长3646万。而网络视频的用户更是达到7.59亿,较2018年底增长3391万。 尤其是在15年前后,随着4G的普及以及智能机的大众化,互联网娱乐行业迎来了一次流量红利时期,在这个时期,各种资讯、视频、直播、社交等软件如雨后春笋般冒出,大量的用户开始涌入。在当时只要是有稍微优质的内容输出,就能为作者或是整个平台带来巨大的流量。 行业发展方向 流量红利消失,用户增长陷入瓶颈 但是到了2020年

云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

随声附和 提交于 2020-10-30 11:41:02
简介: 数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。 行业综述 全民娱乐时代,网络互娱市场持续保持高速增长 随着互联网的普及以及技术的发展,互联网娱乐行业的发展也日渐成熟。从早期单一门户网站,到个人博客的流行,再到视频网站的壮大。以及这两年层出不穷的短视频、直播、资讯平台等,网络娱乐行业的发展也正在从内容为王,开始往大数据驱动内容创新与推广的方向进行发展。 随着生活条件的变好,人们进入了娱乐即生活,生活即娱乐的时代。如同互联网时代到来引爆信息爆炸一样,互联网娱乐的兴起和发展同样有爆发力。据统计,截至2019年6月,我国网络直播用户规模达4.33亿,较2018年底增长3646万。而网络视频的用户更是达到7.59亿,较2018年底增长3391万。 尤其是在15年前后,随着4G的普及以及智能机的大众化,互联网娱乐行业迎来了一次流量红利时期,在这个时期,各种资讯、视频、直播、社交等软件如雨后春笋般冒出,大量的用户开始涌入。在当时只要是有稍微优质的内容输出,就能为作者或是整个平台带来巨大的流量。 行业发展方向 流量红利消失,用户增长陷入瓶颈 但是到了2020年

如何使用云原生数据湖,助力线上教育行业逐步智能化

你离开我真会死。 提交于 2020-10-28 12:44:34
简介: 阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。 行业综述 线下教育行业因疫情受挫,线上教育却逆势增长 随着90年代互联网的引入,在线教育产品也依托于互联网诞生。随着互联网技术的发展,在线教育产品也开始了出现新的模式。在线教育从最初单纯的文字形式,开始往图片、音频方面开始发展。加上这几年直播技术的发展和人工智能等技术在在线教育的应用,在线教育成为今年疫情影响下,为数不多能实现逆势增长的行业。 由于疫情的影响,教育行业根据中央疫情防控工作部署,直接暂停各类线下授课,不举办任何形式的聚集性培训活动。在此期间各类线下培训机构遭受重创,某知名线下教育机构上半年营收同期降低30%,净亏损将近1亿。 和线下教育不同的是,线上教育行业整体呈现逆势增长的态势,根据数据显示,2020年中国在线教育用户规模预计将达到3.51亿人,预计市场规模将达到4858亿元。同时由于疫情的影响,三月份在线教育市场渗透率更是高达85%,增长率是2019年的5倍以上。 行业发展方向 在线教育向数据化发展,行业逐步智能化 教育在线化也进一步促进了数据化的发展,内容作为教育企业的核心资产,无论是数据化程度还是数据化规模都不断提升;同时用户使用时长的提升,又为教育AI提供了大量源数据。据统计今年3月份在线教育用户日均在线时长,超过200万天

python爬虫爬取豆瓣电视剧数据

╄→尐↘猪︶ㄣ 提交于 2020-10-24 07:57:37
作为一个python小白,在下面的问题中出错: 1.因为豆瓣页面的数据加载涉及到异步加载,所以需要通过浏览器获取到真正的网页链接。 2.将字典转化为DataFrame以后写入.csv文件。DataFrame是一个表单一样的数据结构。 3.从网页获取的json数据的处理。 代码: import re import requests from bs4 import BeautifulSoup import time import random import string import logging import json import jsonpath import pandas as pd import pdb User_Agents = [ ' Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50 ' , ' Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50 ' , ' Mozilla/5.0 (compatible;

在 Delta Lake 中启用 Spark SQL DDL 和 DML

空扰寡人 提交于 2020-10-04 23:29:49
Delta Lake 0.7.0 是随着 Apache Spark 3.0 版本发布之后发布的,这个版本比较重要的特性就是支持使用 SQL 来操作 Delta 表,包括 DDL 和 DML 操作。本文将详细介绍如何使用 SQL 来操作 Delta Lake 表,关于 Delta Lake 0.7.0 版本的详细 Release Note 可以参见 这里 。 文章目录 1 使用 SQL 在 Hive Metastore 中创建表 2 支持使用 SQL 进行 Insert, Delete, Update 和 Merge 操作 3 自动或增量的形式生成 Presto/Athena manifest 文件 4 通过表属性来对表进行配置 5 支持在 Delta 表 commit 文件中添加用户定义的元数据 使用 SQL 在 Hive Metastore 中创建表 Delta Lake 0.7.0 支持在 Hive Metastore 中定义 Delta 表,而且这些操作支持使用 SQL 进行,包括创建表和修改表,如下: -- Create table in the metastore CREATE TABLE events ( date DATE, eventId STRING, eventType STRING, data STRING) USING DELTA PARTITIONED