大数据

马云告别演讲

[亡魂溺海] 提交于 2021-01-09 22:12:51
一切都会过去,比如昨晚阿里巴巴的20周年会,比如阿里巴巴的马云时代。 不管你愿不愿意,一切都会过去,时间总是不停的流逝。 这个世界唯一不变的就是变化,即便是马云也无法阻止变化,你能做的就是拥抱变化,让变化朝着自己理想的方向发展。 马云把自己退休当做制度传承的开始,当成是未别人着想、为世界着想、为未来着想的践行。青山不改、绿水长流、换个江湖再见。 马云卸任演讲全文:   感谢大家人远道而来。真没想到,等了10年的这一天,来得那么快,来得那么美好,感谢所有帮助过、支持过、信任过阿里巴巴的人,感谢所有的阿里的员工,阿里的朋友,感谢这伟大的时代,感谢这个国家,感谢这个了不起的城市。   其实在下面看的时候就发现,阿里这个公司很厉害,可能全世界很少这么一家公司的文艺演出搞得那么专业,很多人以为我们是专业搞文艺演出的,这就是我们的价值。我们不仅工作做得好,我们要玩得好,我们要会生活,感谢大家,我们这样的晚会18年了,18年进步越来越大,我希望30年的时候,我们能给世界带来更多的精彩。   15年以前,那时候阿里巴巴决定把这家公司要做102年,横跨三个世纪,我那时候一直在思考一个问题,如何能做到?很多人把公司的愿景是当口号、当标语,他们自己不一定信,而阿里要让我们自己信,并且保证他能实现。那时候我开始考虑如何传承,用制度去思考。我们走访很多公司,全世界基本是两条路

接口测试,接口协议以及常用接口测试工具详解

旧城冷巷雨未停 提交于 2021-01-09 21:58:52
顾翔老师的《软件测试技术实战设计、工具及管理》网上购买地址: https://item.jd.com/34295655089.html 《基于Django的电子商务网站》网上购买地址: https://item.jd.com/12082665.html 店铺二维码: 作者: 长沙逍遥子 来源: 简书 一、前言:什么是接口 1.接口指的是软件提供给外界的一种服务。作用在于使其内部的数据能被外部进行修改的交互方式。 例如:USB接口,电脑里的数据可以看成是内容数据,而U盘里的数据可以看成是外部数据,那么USB接口的作用就是:电脑和U盘交互数据,也就是使电脑内部的数据能够和外部的U盘交换数据。 例如:微信的提现和充值,就调用银行对外开放的接口,这些接口有权限控制,一般需要鉴权码token才可以访问。那为什么要鉴权码呢?如果没有鉴权码约束,那是不是谁也可以修改银行内部的数据?那还得了,那就真可以定一个小目标了! 2.接口一般来说有两种:一种是程序内部的接口,一种是系统对外的接口。 系统对外的接口:比如你要从别的网站或服务器上获取资源或信息,别人肯定不会把数据共享给你,他只能给你提供一个他们写好的方法来获取数据,你引用他提供的接口就能使用他写好的方法,从而达到数据共享的目的,比如说咱们用的app它在进行数据处理的时候都是通过接口来进行调用的。 程序内部的接口:方法与方法之间

python居然有情感??真的吗??

旧巷老猫 提交于 2021-01-09 21:46:23
请输入标题 bcdef 由于最近忙于直播,没有存下稿子,在这里大邓要向大家检讨道歉。但请大家放心,每天的更新我还会保持的,大家有什么内容上的建议可以后台回复我。 请输入标题 bcdef 文本分析是很有用的一个必须掌握的技能,写爬虫爬了那么多文本,我们如何分析呢?? 有很多种角度,比如提取出文章的主题内容,这用到LDA(Latent Dirichlet Allocation),LDA是一种文档主题生成模型。这个太难,其实大邓都没学会,但大邓会努力的,争取早日学会分享给大家。 还有一个角度就是分析文本的情绪,是积极还是消极。一般咱们爬的评论都可以用到这个角度的分析方法。情感分析是一很难的东西,就算是一句“我很开心”,你能知道说这句话的人是否真开心?还要分析这个人说话的语气,语调。 但是咱们今天抛开语调,语气,单纯从文本角度对一段段的评论进行分析。我们使用了很简单的词典进行分析,准确率不是特别高,但做做学术搞搞研究还是够用的。 请输入标题 abcdefg 一、原理 比如这么一句话:“这手机的画面极好,操作也比较流畅。不过拍照真的太烂了!系统也不好。” 1.1 情感词 要分析一句话是积极的还是消极的,最简单最基础的方法就是找出句子里面的情感词,积极的情感词比如:赞,好,顺手,华丽等,消极情感词比如:差,烂,坏,坑爹等。出现一个积极词就+1,出现一个消极词就-1。 里面就有“好”,“流畅

干货丨时序数据库DolphinDB和TimescaleDB 性能对比测试报告

我与影子孤独终老i 提交于 2021-01-09 11:01:35
一、概述 DolphinDB DolphinDB 是以 C++ 编写的一款分析型的高性能分布式时序数据库,使用高吞吐低延迟的列式内存引擎,集成了功能强大的编程语言和高容量高速度的流数据分析系统,可在数据库中进行复杂的编程和运算,显著减少数据迁移所耗费的时间。 DolphinDB 通过内存引擎、数据本地化、细粒度数据分区和并行计算实现高速的分布式计算,内置流水线、 Map Reduce 和迭代计算等多种计算框架,使用内嵌的分布式文件系统自动管理分区数据及其副本,为分布式计算提供负载均衡和容错能力。 DolphinDB database 支持类标准 SQL 的语法,提供类似于 Python 的脚本语言对数据进行操作,也提供其它常用编程语言的 API,在金融领域中的历史数据分析建模与实时流数据处理,以及物联网领域中的海量传感器数据处理与实时分析等场景中表现出色。 TimescaleDB TimescaleDB 是目前市面上唯一的开源且完全支持 SQL 的时序数据库。它在 PostgreSQL 数据库的基础上进行开发,本质上是一个 PostgreSQL 的插件。 TimescaleDB 完全支持 SQL 且拥有 PostgreSQL 的丰富生态、并针对时间序列数据的快速插入和复杂查询进行了优化,支持自动分片,支持时间空间维度自动分区,支持多个 SERVER、多个 CHUNK 的并行查询

一切以数据为核心 数字华谊进入数据驱动新阶段

雨燕双飞 提交于 2021-01-09 10:52:10
数据作为化工行业数字化转型的关键所在,如何深入挖掘数据资产价值已经成为化工行业新的竞争力所在。 出品 | 常言道 作者 | 丁常彦 2010年,我国化工经济总量跃居世界第一;2020年,我国已经成为世界石油和化工大国,并占据全球市场份额的40%。化工行业尽管已经成为我国经济的支柱产业之一,但总体上依然存在“大而不强、快而不优”问题。 目前,化工行业正面临行业竞争加剧、供需矛盾突出、成本压力凸显、环境约束强化等多重挑战。如何借助数字化转型为化工行业带来新动能,已经成为当务之急。 作为一家大型化工企业集团,经过多年来的持续发展,现已形成 “能源化工”、“先进材料”、“绿色轮胎”、“精细化工”、“化工服务”五大核心业务,并构建起“一个华谊,全国业务”的发展格局。在2020年的《财富》中国500强排行榜中,华谊集团更是位列第260位。 由于华谊集团下属企业细分行业众多、业态多样,分布于产业链上中下游;随着集团“走出去”战略的全面推进以及行业影响力的不断扩大,构筑成熟有效的管理模式并加以复制推广、确保各项业务风险受控已经成为集团亟待解决的问题。而数字化转型的持续推进,能为华谊集团协同化运营、一体化管控提供新视角和新抓手,从而释放管理新红利。 转型迫在眉睫 华谊集团从数据入手 在数字经济蓬勃发展的今天,数字技术已经成为传统化工企业提升经营管理效率、转型升级业务模式、应对不确定危机的必然选择

工业互联网平台百家争鸣,海尔COSMOPlat何以频登榜首?

亡梦爱人 提交于 2021-01-09 10:31:24
文|曾响铃 来源|科技向令说(xiangling0815) “工业互联网是足以撬动地球的一个支点。” 如今,这个支点正在不断夯实,一些强而有力的声音正在向外界传递。 10月24日,中国评测与通信产业报社联合发布了2019第二届工业互联网平台活力榜,海尔COSMOPlat等多家工业互联网平台上榜。 11月6日,在2019年产业互联与数字经济大会暨第二届工业互联网平台创新发展大会上,2019年十大跨行业跨领域工业互联网平台正式公布,海尔COSMOPlat、华为FusionPlant、阿里supET等10家工业互联网平台得到官方认可,成为行业发展的标杆案例。 图注:工信部正式发布十大“双跨”平台 海尔COSMOPlat居榜首 类似的权威榜单在媒体与公众视野出现愈发频繁,“蝴蝶效应”的翅膀开始煽动,行业的发展在官方推动下不断深化与规范,从百家争鸣向落地结果跨越。 官方搭台,巨头唱戏,工业互联网百家争鸣 “它是全新的工业革命。”——GE杰夫·伊梅尔特 当工业互联网的概念出现,便注定成为经济发展的焦点,成为新时代的产业驱动力。 事实上,数据显示,2018年我国工业互联网的市场规模便达到了5313亿元,预计在2023年整体规模突破万亿级别,产业发展趋于乐观。 不难想象,随着官方发话,工业互联网也迎来了政策红利期。过去一年(2018-2019)工信部对此发文便有6份,指向性明确

海尔COSMOPlat打造制造业“灯塔”:生态赋能让未来已来

南楼画角 提交于 2021-01-09 09:58:00
文|曾响铃 来源|科技向令说(xiangling0815) (图1:海尔获评世界经济论坛全球首批“灯塔工厂”的奖杯:“海尔以卓越的表现和领导力成为灯塔并塑造先进制造和生产的未来”) 世界经济论坛曾进行过调研,由于技术落实策略不当,70%以上的企业投资的大数据分析、人工智能、3D打印等技术应用项目没能撑过试行阶段,制造业升级大面积陷入瓶颈期。 就在全球工业升级受阻的背景之下,基于COSMOPlat打造的海尔互联工厂从全球1000多家企业中脱颖而出,成为世界经济论坛选出的9家先进“灯塔工厂”之一。海尔作为唯一一家入选的中国企业,为全球企业转型树立了新的标杆,给了全球工业发展一剂强心针。 事实上,海尔的灯塔工厂只是海尔COSMOPlat应用的成果之一。11月6日,海尔互联工厂在国内又新增一家,第11个互联工厂——海尔滚筒洗衣机互联工厂正式投产。同时,COSMOPlat跨文化复制也取得了新的进展。今年5月份在北美GE Appliances(简称GEA)落地的海外互联工厂,基于海尔COSMOPlat所提供的大规模定制模式的解决方案与规划,设备综合效率(OEE)不断上升。海尔COSMOPlat独辟蹊径,正在以实际行动照亮全球制造业的智能化升级之路。 一、“玻璃门”横亘制造业升级之路 工业4.0的概念提出已有好几年了,但事实上,国内能达到4.0阶段智能化要求的工厂并不多

R语言代写使用ARIMA模型预测股票收益

南笙酒味 提交于 2021-01-09 07:03:30
“预测非常困难,特别是关于未来”。丹麦物理学家尼尔斯·波尔(Neils Bohr)很多人都会看到这句名言。预测是这篇博文的主题。在这篇文章中,我们将介绍流行的ARIMA预测模型,以预测库存的回报,并演示使用R编程的ARIMA建模的逐步过程。 时间序列中的预测模型是什么? 预测涉及使用其历史数据点预测变量的值,或者还可以涉及在给定另一个变量的值的变化的情况下预测一个变量的变化。预测方法主要分为定性预测和定量预测。时间序列预测属于定量预测的范畴,其中统计原理和概念应用于变量的给定历史数据以预测同一变量的未来值。使用的一些时间序列预测技术包括: 自回归模型(AR) 移动平均模型(MA) 季节回归模型 分布式滞后模型 什么是自回归综合移动平均线(ARIMA)? ARIMA代表Autoregressive Integrated Moving Average。ARIMA也被称为Box-Jenkins方法。Box和Jenkins声称,通过对系列Y t进行差分,可以使非平稳数据静止。Y t的一般模型写成, ARIMA模型结合了三种基本方法: 自回归(AR) - 在自回归的一个给定的时间序列数据在他们自己的滞后值,这是由在模型中的“P”值表示回归的值。 差分(I-for Integrated) - 这涉及对时间序列数据进行差分以消除趋势并将非平稳时间序列转换为静态时间序列。这由模型中的“d”值表示

在技术圈混,不知道这些你就 OUT 了

北城余情 提交于 2021-01-09 06:57:54
技术之路就是漫长的打怪升级,不断学习前人的踩坑经验才能提升自己,切忌闭门造车。 所谓独乐乐不如众乐乐, 强烈推荐以下公众号,让你的生活多点意思👀 ,希望小伙伴们能在 coding 的路上走的更远。 OSC开源社区 ID:oschina2013 简介: 国内最大的开源社区。 ▲长按二维码识别关注 高性能服务器开发 ID: easyserverdev 简介 : 张小方,码农一枚,写了十年 C++ 和五年 Java,目前写 go,技术痴迷者,擅长客户端和高性能高并发后端开发,先后任职于某交易所、声网、携程旅行网、字节跳动等公司。 涉及的技术栈 :C++/Java/golang/Python、服务器开发、架构设计、算法与数据结构、面试经验、程序员生活等。 ▲长按二维码识别关注 大数据肌肉猿 ID:BigData-BigMuscle 简介: 号主峰哥现就职于某知名外企高级大数据开发工程师,从机械自学转型大数据,校招收割头条、腾讯、美团等数十家大厂offer,致力于分享大数据转型案例、面试经验及相关技术分享,也欢迎加峰哥微信进行交流。 ▲长按二维码识别关注 程序员面试 ID: mvpjob 简介: 聚焦程序员 ,Java,Spring boot,Spring cloud,Linux,Docker,Sql,kafka,Elasticsearch 等面试 , 涵盖阿里 , 头条 , 百度 ,

ETL-kettle 核心执行逻辑

落爺英雄遲暮 提交于 2021-01-09 05:21:16
一、大数据下的ETL工具是否还使用Kettle kettle 作为通用的ETL工具,非常成熟,应用也很广泛,这里主要讲一下 目前我们如何使用kettle的? 在进行大数据处理时,ETL也是大数据处理的主要场景之一。 针对大数据下的ETL, 在大数据研究之初,曾经花费很大精力去寻找大数据下比较成熟的ETL工具,但是不多。主要分类如下: 开源的图形界面 类似 kettle 的nifi 命令形式的 如 sqoop、DataX 还有使用Spark 自定义开发ETL框架的 大数据下的ETL处理过程和传统关系型数据库下的ETL处理过程, 我的理解本质还是一样的,要说区别 可能是大数据下需要ETL处理的数据速度足够快,这就要求可以充分利用分布式的能力,比如利用分布式的资源进行分布式的的计算。 基于使用经验和产品成熟度,在大数据下我们针对一些对数据处理速度不是非常之高的场景,我们仍然使用kettle。 这里我为什么不说数据量,因为对于一个ETL过程,说数据量是无意义的, 好的ETL工具的核心引擎一定是一个类似现在的流式计算 也就是说数据向水一样的流动,流动的过程中做数据处理 。也可kettle本身的含义类似。 基于个人的理解,任务kettle的优势主要体现在以下几点 设计时: 提供了成熟的图形界面,相比命令行形式的etl工具,更容易被推广应用 提供了丰富的各种数据库类型的插件,数据转换插件