大数据

【Redis】五大数据类型

自闭症网瘾萝莉.ら 提交于 2021-01-06 09:11:16
Redis五大数据类型 String 设置key 获取key get获取 set设置 getset 先get再set mget mset 同时设置、获取多个值 setnx msetnx 不存在设置 setex 设置过期时间 append 追加 strlen 获取长度 i++ 字符串范围 getrange 获得指定范围字符串 setrange 替换 指定位置开始的字符串 list 插入 lpush 从左边插入,插入到列表头部 rpush 从右边插入 linsert 指定值 前/后插入 rpoplpush 移除列表的最后一个元素 移除 lpop rpop 从头或尾移除 lrem 移除指定的值 ltrim 截取区间内的值 更新 获取值 lrange 获取区间内的值 lindex 通过下标获取值 llen 获取长度 Set(集合) 添加 sadd 添加元素 移除 srem 移除指定元素 spop 随机删除元素 smove 将一个指定的值移到另一个集合 获取 smembers 查看指定set的所有值 sismember 判断一个值是不是在set中 srandmember 随机抽取指定个数的元素 scard 获取set集合中的个数 交并补 hash 设置 hset hmset 同时设置多个值 hsetnx 不存在设置 获取 hget hmget 同时获取多个值 获取键、值 hgetall

阿里云 MaxCompute 2020-12 月刊

↘锁芯ラ 提交于 2021-01-06 09:10:44
【12月新发布功能】 1、MaxCompute 查询编辑器支持查询加速提升数据分析能力 MaxCompute 数据分析支持查询加速,当分析师通过SQL查询数据时,速度可提升至秒级,为数据分析师提供更优的数据分析体验。 适用客户及场景 数据分析师,尤其适用于数据分析师对离线数仓的数据进行取数,再通过Excel进行二次分析的场景。 发布功能 MaxCompute 数据分析查询模式支持 MaxCompute 查询加速,对于中、小数据量查询作业将执行时间从分钟级缩减至秒级。 通过 MaxCompute 查询编辑器发起查询 SQL 会优先通过查询加速进行查询,若满足则秒级返回结果,若不满足查询加速条件,则会回退离线查询,保障查询作业正常执行。 结合查询编辑器丰富的web-excel分析功能,数据分析师可通过MaxCompute数据分析快速的进行一站式数据查询、结果二次分析及结果分享。 MaxCompute查询加速功能当前支持按量计费资源,若您的项目使用包年包月资源,暂时还无法满足查询加速。 查看文档 >> 2、MaxCompute 流式数据写入服务(Streaming Tunnel)公测发布 MaxCompute Streaming Tunnel 服务,支持 API 方式实现流式数据无感知高 QPS 写入 MaxCompute。 适用客户 有实时计算Flink、数据通道DataHub

Python爬虫教程-爬取酷狗音乐源码

一个人想着一个人 提交于 2021-01-06 08:30:59
在常见的几个音乐网站里,酷狗可以说是最好爬取的啦,什么弯都没有,也没加密啥的,所以最适合小白入门爬虫 项目源码 import requests from selenium import webdriver from pyquery import PyQuery as pq #获取歌名 def Access_to_the_song (C) : doc=pq(C) The_song=doc( '.audioName' ).text() return The_song #进入听歌的界面爬取HTML def Browser_access (URL) : The_browser=webdriver.ChromeOptions() The_browser.set_headless() Drier=webdriver.Chrome(options=The_browser) Drier.get(URL) Print_source=Drier.page_source doc = pq(Print_source) Music_links = doc( '.music' ).items() for i in Music_links: Music_downloads = i.attr( 'src' ) with open(Access_to_the_song(Print_source) + '.mp3'

clickhouse数据模型之留存分析

。_饼干妹妹 提交于 2021-01-06 06:17:21
本文经作者授权,独家转载: 作者主页:https://www.jianshu.com/u/8f36a5e63d18 什么是留存,比如在20200701这天操作了“点击banner”的用户有100个,这部分用户在20200702这天操作了“点击app签到”的有20个,那么对于分析时间是20200701,且“点击banner”的用户在次日“点击app签到”的留存率是20%。 背景 关于用户留存模型是各大商业数据分析平台必不可少的功能,企业一般用该模型衡量用户的活跃情况,也是能直接反应产品功能价值的直接指标;如,boss想要了解商城改版后,对用户加购以及后续下单情况的影响等。如下图,这就是一个典型的留存分析功能: 问题 通常实现上述需求的传统做法是多表关联,了解clickhouse的攻城狮都清楚,多表关联简直就是clickhouse的天敌;如一张用户行为日志表中至少包含:用户id、行为事件、操作时间、地点属性等,想分析20200909日河南省注册用户次日的下单情况,那么SQL一般会这么写: select count(distinct t1.uid) r1, count(distinct t2.uid) r2 from( select uid from action_log where day='20200909' and action='login' and province='河南省'

Kubernetes集群调度器原理剖析及思考

两盒软妹~` 提交于 2021-01-06 05:23:30
导读 云环境或者计算仓库级别(将整个数据中心当做单个计算池)的集群管理系统通常会定义出工作负载的规范,并使用调度器将工作负载放置到集群恰当的位置。好的调度器可以让集群的工作处理更高效,同时提高资源利用率,节省能源开销。 通用调度器,如Kubernetes原生调度器Scheduler实现了根据特定的调度算法和策略将pod调度到指定的计算节点(Node)上。但实际上设计大规模共享集群的调度器并不是一件容易的事情。调度器不仅要了解集群资源的使用和分布情况,还要兼顾任务分配速度和执行效率。过度设计的调度器屏蔽了太多的技术实现,以至于无法按照预期完成调度任务,或导致异常情况的发生,不恰当的调度器的选择同样会降低工作效率,或导致调度任务无法完成。 本文主要从设计原理、代码实现两个层面介绍Kubernetes的调度器以及社区对其的补充加强,同时对业界常用调度器的设计实现进行比较分析。通过本文,读者可了解调度器的来龙去脉,从而为选择甚至设计实现适合实际场景的调度器打下基础。 注明:本文中代码基于v1.11版本Kubernetes进行分析,如有不当之处,欢迎指正! 调度器的基本知识 1.1 调度器的定义 通用调度的定义是指基于某种方法将某项任务分配到特定资源以完成相关工作,其中任务可以是虚拟计算元素,如线程、进程或数据流,特定资源一般是指处理器、网络、磁盘等,调度器则是完成这些调度行为的具体实现

Linux系统入门系列之五:数据流定向

对着背影说爱祢 提交于 2021-01-06 01:21:57
Linux具有强大的文件信息处理系统,基于Linux系统的数据流定向、正则表达式可以方便的在服务器中处理大数据文本。接下来将带大家深入了解Linux系统文件处理规则,从而便以后各种生物信息数据的处理。 ——走进Bash 1.数据流定向 一般命令的执行来自于标准输入(例如键盘输入,来自文件的命令也要转换为标准输入),执行完毕后将数据(处理结果或错误信息)传输到屏幕上,也即标准输出,但是这样导致屏幕十分杂乱,也不利于结果的保存查看。我们可以采用数据流定向手段将结果和错误信息传输到文件,定向方法如下: 标准输入( stdin ):代码为 0 ,使用 < 或 << ; 标准输出( stdout ):代码为 1 ,使用 > 或 >> ; 标准错误输出( stderr ):代码为 2 ,使用 2> 或 2>> 。 具体用法如下所示: 例如我们要运行显示时间和日期的 shell 脚本,并将结果保存在 cal_date.txt 里面: 接下来我们运行显示生日的脚本,将结果追加在 cal_date.txt 中: 注意这里使用的是 >> ,若是 > 则内容会替代而不是累加。接下来我们修改 shell 脚本使 cal 参数错误,然后运行并输出错误信息: 也可以将正确结果与错误信息同时输出到两个文件: 假如我们不希望在屏幕上看到错误信息,也不希望保存,直接将报错丢掉,可以使用垃圾桶 /dev/null

要闻丨签约星云大数据,人大金仓助力数字经济生态合作签约大会圆满完成

核能气质少年 提交于 2021-01-06 01:02:50
为加快数字经济产业布局,共建数字产业生态。 10月13日, 总裁杜胜受邀参加福建省电子信息集团数字经济生态合作签约大会,与福建省电子信息集团总经理钟军共同见证人大金仓与福建省星云大数据应用服务有限公司(以下简称“星云大数据“)成功签约 。 总裁杜胜(后排左2)与福建省电子信息集团总经理钟军共同见证华南事业部总经理朱伟(前排左1)星云大数据董事长高元荣现场签约 本次会议由福建省电子信息集团主办,签约涉及法院信息化、校企信息化、半导体材料创新研究、规划咨询、技术创新、科创服务、医疗健康、云平台、服务器、数据库、新型智慧城市、教育教学等领域。 来自工业互联网研究院、交通银行、福建省医科大学、南威软件、麒麟软件等企业代表200余人见证了本次数字经济生态合作签约仪式 。签约项目涵盖“集成电路、新型显示、网络通信、信息服务”等主导产业, 且签约企业均处于业界先进水平,人大金仓是国产数据库领域唯一受邀签约企业。 成立于2000年,福建省电子信息集团是福建省政府出资组建的电子信息行业国有独资资产经营公司和投资平台。2019年,福建省电子集团实现营业收入422亿元,资产总额906亿元,注册资本76.39亿元,跻身中国企业五百强,位列我国电子信息百强企业第28位。疫情期间,高质量发展趋势更加鲜明,截至2020年9月,实现营业收入321亿元,资产总额近千亿,均同比增长14%。 其子公司星云大数据

深入理解 Java 内存模型

三世轮回 提交于 2021-01-05 23:42:12
Java内存模型(Java Memory Model,JMM)是java虚拟机规范定义的,用来屏蔽掉java程序在各种不同的硬件和操作系统对内存的访问的差异,这样就可以实现java程序在各种不同的平台上都能达到内存访问的一致性。可以避免像c++等直接使用物理硬件和操作系统的内存模型在不同操作系统和硬件平台下表现不同,比如有些c/c++程序可能在windows平台运行正常,而在linux平台却运行有问题。 物理硬件和内存 首先,在单核电脑中,处理问题要简单的多。对内存和硬件的要求,各种方面的考虑没有在多核的情况下复杂。电脑中,CPU的运行计算速度是非常快的,而其他硬件比如IO,网络、内存读取等等,跟cpu的速度比起来是差几个数量级的。而不管任何操作,几乎是不可能都在cpu中完成而不借助于任何其他硬件操作。所以协调cpu和各个硬件之间的速度差异是非常重要的,要不然cpu就一直在等待,浪费资源。而在多核中,不仅面临如上问题,还有如果多个核用到了同一个数据,如何保证数据的一致性、正确性等问题,也是必须要解决的。 目前基于高速缓存的存储交互很好的解决了cpu和内存等其他硬件之间的速度矛盾,多核情况下各个处理器(核)都要遵循一定的诸如MSI、MESI等协议来保证内存的各个处理器高速缓存和主内存的数据的一致性。 除了增加高速缓存,为了使处理器内部运算单元尽可能被充分利用

难怪都去搞Python,这也太壕了!

最后都变了- 提交于 2021-01-05 22:18:13
不久前,清华大学经管学院发布了《中国经济的数字化转型:人才与就业》的报告,根据报告显示,当前我国大数据领域人才缺口高达150万,到2025年将达到200万。 数据来源:2019年中国AI&大数据人才大数据人才就业报告 这份报告 对国家而言 ,是提前规划、提前布局的参考, 对企业而言 ,是切入下一赛道的征兆, 而对于普通人而言, 则是一个机会,一个能够获得快速晋升,甚至实现财富自由的机会。 细数现在国内的互联网产品,淘宝电商老大地位不可动摇;腾讯则牢牢占据社交、游戏大部分份额;抖音、快手引领短视频风潮…… 这些公司除了占据行业先发优势之外,完备的数据也是它们成功的重要原因,甚至有人笑称, 比你更了解你自己的不是你妈,而是这些公司。 如果把数据比作企业发展的“石油“,那么掌握 如何将其提炼为可使用的情报 就是发挥其潜力的关键。 “我知道客流量在最近一个月减少了30%,所以该怎么办呢?” “模型预计本月销售额增长30%,我只要维持现状就能稳定增长吗?” “我有过去一年几万条的销售记录,这些记录能发挥什么作用呢?” 这些数据说明了什么,到底我要怎么做,通过这些数据得到结论是企业最迫切的事情。 会“分析“的人很多,但能从繁杂的数据中得到具体结论的 商业数据分析人才 却是凤毛麟角。 现在用人市场上每一个商业数据分析的人才都能引起各大公司争夺,甚至有公司开出了令人瞠目结舌的“ 天价 “。

要闻 | 人大金仓完成国内首家通信领域B域核心系统国产化

左心房为你撑大大i 提交于 2021-01-05 21:55:43
点击蓝字 关注我们 中国移动于今年7月完成了自主可控OLTP数据库联合创新项目的招标工作,人大金仓成功入围(详见>>> 《人大金仓成功中标中国移动自主可控OLTP数据库联合创新项目 》 )。随后,双方成立联合创新项目组,针对集中化网间结算系统联合开展数据库自主创新工作。 中国移动集中网间集中结算系统是中国移动的 B域核心业务系统 ,涉及复杂的结算业务。网间集中结算系统提供与各省联通、电信运营商之间的语音、短信、彩信业务的结算。 网间集中结算系统的批价逻辑复杂,涉及到各类配置数据的整合和计算,全网每月约400-500亿条话单需要处理,业务高峰期的话单量为19290.1条/秒。 客户需求及业务挑战 中国移动网间结算系统的特点是涉及的业务逻辑运算复杂、并发量大、大数据量、数据迁移难度大、数据一致性及业务连续性要求高,是中国移动IT业务支撑系统的核心关键系统之一,在中国移动OLTP项目中具有极高的代表性。 同时,集中网间结算系统对数据库产品的高速处理、低时延及稳定性等方面提出了更高的要求,而国外数据库厂家由于长期垄断并占据运营商行业市场,加上国产数据库厂家由于起步较晚和性能上的差距,导致多年以来国产数据库厂家一直很难介入到中国移动核心重点关键领域。 本次项目的顺利交付上线不仅是国产数据库取得的重大突破,也充分证明人大金仓在产品及技术层面的积淀,完全可以支撑业务逻辑复杂的核心业务系统。此前