时间序列

基于深度迁移学习进行时间序列分类

匿名 (未验证) 提交于 2019-12-02 23:57:01
本文是法国上阿尔萨斯大学发表于 IEEE Big Data 2018 上的工作。 通常来说,用传统的机器学习方法(例如 KNN、DTW)进行时间序列分类能取得比较好的效果。但是, 基于深度网络的时间序列分类往往在大数据集上能够打败传统方法。 另一方面,深度网络必须依赖于大量的训练数据,否则精度也无法超过传统机器学习方法。在这种情况下,进行数据增强、收集更多的数据、使用集成学习模型,都是提高精度的方法。这其中,迁移学习也可以被用在数据标注不足的情况。 从深度网络本身来看,有研究者注意到了,针对时间序列数据,深度网络提取到的特征,与 CNN 一样,具有相似性和继承性。因此,作者的假设就是, 这些特征不只是针对某一数据集具有特异性,也可以被用在别的相关数据集。 这就保证了用深度网络进行时间序列迁移学习的有效性。 本文基本方法与在图像上进行深度迁移一致: 先在一个源领域上进行 pre-train,然后在目标领域上进行 fine-tune。 然而,与图像领域有较多的经典网络结构可选择不同,时间序列并没有一个公认的经典网络架构。因此,作者为了保证迁移的效果不会太差,选择了之前研究者提出的一种 全卷积网络 (FCN,Fully Convolutional Neural Network)。这种网络已经在之前的研究中被证明具有较高的准确性和鲁棒性。 网络结构 如下图所示。

ubuntu 18 docker 搭建Prometheus+Grafana

匿名 (未验证) 提交于 2019-12-02 23:51:01
Prometheus(普罗米修斯)是一套开源的监控&报警&时间序列数据库的组合,起始是由SoundCloud公司开发的。随着发展,越来越多公司和组织接受采用Prometheus,社会也十分活跃,他们便将它独立成开源项目,并且有公司来运作。Google SRE的书内也曾提到跟他们BorgMon监控系统相似的实现是Prometheus。现在最常见的Kubernetes容器管理系统中,通常会搭配Prometheus进行监控。 Prometheus基本原理是通过HTTP协议周期性抓取被监控组件的状态,这样做的好处是任意组件只要提供HTTP接口就可以接入监控系统,不需要任何SDK或者其他的集成过程。这样做非常适合虚拟化环境比如VM或者Docker 。 Prometheus应该是为数不多的适合Docker、Mesos、Kubernetes环境的监控系统之一。 输出被监控组件信息的HTTP接口被叫做exporter 。目前互联网公司常用的组件大部分都有exporter可以直接使用,比如Varnish、Haproxy、Nginx、MySQL、Linux 系统信息 (包括磁盘、内存、CPU、网络等等),具体支持的源看:https://github.com/prometheus。 与其他监控系统相比,Prometheus的主要特点是: 一个多维数据模型(时间序列由指标名称定义和设置键/值尺寸)。

Salient Subsequence Learning for Time Series Clustering论文笔记

匿名 (未验证) 提交于 2019-12-02 23:38:02
Salient Subsequence Learning for Time Series Clustering Qin Zhang, Jia Wu, Member, IEEE, Peng Zhang, Guodong Long, Chengqi Zhang, Senior Member, IEEE TPAMI 2018 什么是shapelet? shapelet是时间序列的子序列,具有判别性,其在某种意义上最大程度地代表类。 从树叶分类说起,自然是根据树叶的形状分类 将每个树叶用一个一维的时间序列来表示 根据shapelets分类 shapelets的优点 可解释性好 结果更精确,因为考虑的是局部特征,而非全局特征(很容易收到噪声和扭曲的影响) 速度更快,时间复杂度为O(mn)(m为时间序列长度,n为shapelet长度) 主要贡献 USSL 无监督的shapelet学习,用于时间序列聚类,结合了pseudo-class labels, spectral analysis, regularized least-squares techniques and shapelet regularization 在UCR Time Series数据集上进行了验证,是state-of-the-art 目前方法存在的问题 最初通过扫描整个时间序列来获取shapelets的候选模板,时间复杂度很高

prometheus基本概念用法记录

匿名 (未验证) 提交于 2019-12-02 23:04:42
Prometheus 基本概念 promethues是一套开源的系统监控报警框架。 时间序列 数据库当中(TSDB):属于同一指标名称,同一标签集合的、有时间戳标记的数据流。除了存储的时间序列,Prometheus 还可以根据查询请求产生临时的、衍生的时间序列作为返回结果。 强大的多为数据模型 灵活的查询语言 易于管理 高效 使用pull模式采集时间序列数据 多种可视化图形界面 易于伸缩 prometheus组成和架构: prometheus server: 主要负责数据采集和存储,提供promQL查询语言支持。prometheus是一个时序数据库,将采集到的监控数据按照时间序列的方式存储到本地磁盘。 Push Gateway: 支持临时性job主动推送指标的中间网关。 PromDash: 使用rails开发的dashboard,用于可视化指标数据。 Exporters: 负责监控机器运行状态,提供被监控组件信息的 HTTP 接口被叫做 exporter。 直接采集: exporter内置了prometheus支持,直接向prometheus暴露数据端点。 间接采集:原不支持prometheus。通过prometheus提供的clien library编写的目标监控采集程序。 Altermanager: 从 Prometheus server 端接收到 alerts 后

时间序列--可视化的几种方式

匿名 (未验证) 提交于 2019-12-02 23:03:14
一:随时间变化的线性曲线 除了最常见的,还可以设置分组,比如 from pandas import Series from pandas import DataFrame from pandas import TimeGrouper from matplotlib import pyplot series = Series.from_csv('daily-minimum-temperatures.csv', header=0) groups = series.groupby(TimeGrouper('A')) years = DataFrame() for name, group in groups: years[name.year] = group.values years.plot(subplots=True, legend=False) pyplot.show() 每一行都是365天 二:直方图或者密度图 series.plot(kind='kde')--密度图 series.hist()--直方图 三:箱线图 series.boxplot() 下面给出一个年份不同月的箱线图 from pandas import Series from pandas import DataFrame from pandas import TimeGrouper from matplotlib

Python时间序列选择波动率预测指数收益算法分析案例

匿名 (未验证) 提交于 2019-12-02 22:51:30
版权声明:署名,允许他人基于本文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 ( Creative Commons ) 背景 在传统的金融理论中,理性和同质的投资者是核心假设之一,表明每个投资者都有相同的信息,从而做出同样的决定。然而,投资者显然是不均衡的,信息的不对称在股市中很普遍。当知情投资者优先考虑某种类型的资产时,该类资产可能包含更多隐含信息。 期权市场是知情投资者可能更积极参与的市场之一,正如布莱克在1975年提出的那样,让投资者倾向于以较高的杠杆率而非股票本身交易股票衍生品以获得更多利益,因此期权市场可以包含更多信息。提取这些额外信息的一种方法是仔细研究波动性假笑。 波动性 是我们都熟悉的,Pan(2002)的一个主流理论指出,假笑的主要原因是投资者厌恶跳跃风险引起的风险溢价,尤其是OTM看跌期权的情况。该文假设知情的交易者认识到跳跃风险,对OTM看跌期权的需求越多,跳跃风险溢价就越高。因此,我们定义 我们在这里验证指数期权波动率偏差是未来指数收益的一个很好的指标。 美国市场 对于美国市场的实证研究,本文使用SPX期权,这是一种现金结算的欧式期权。从学术数据库OptionMetrics中检索2006-2012的选项数据。其中一些列在下面。 我们可能会注意到一些隐含波动率数据被遗漏。这可以通过看涨期权价格的下限来解释。当标的资产具有0波动率时

Python数据分析:pandas时间序列处理及操作

匿名 (未验证) 提交于 2019-12-02 22:11:45
Python数据分析:pandas时间序列处理及操作 创建方法: 指定index为datatime的list from datetime import datetime import pandas as pd import numpy as np # 指定index为datetime的list date_list = [ datetime ( 2019 , 2 , 18 ) , datetime ( 2019 , 2 , 19 ) , datetime ( 2019 , 2 , 25 ) , datetime ( 2019 , 2 , 26 ) , datetime ( 2019 , 4 , 4 ) , datetime ( 2019 , 4 , 5 ) ] time_s = pd . Series ( np . random . randn ( 6 ) , index = date_list ) print ( time_s ) print ( type ( time_s . index ) ) 运行: pd.date_range() # pd.date_range() dates = pd . date_range ( '2019-02-18' , # 起始日期 periods = 5 , # 周期 freq = 'W-SAT' ) # 频率 print ( dates )

Use of Time-series Based Forecasting Technique for Balancing Load and Reducing Consumption of Energy in a Cloud Data Center

◇◆丶佛笑我妖孽 提交于 2019-12-02 20:10:49
摘要: 由于工作负载分配不均,一些服务器变得过载,而另一些服务器仍处于欠载状态。 为了实现负载平衡,需要从过度使用的节点迁移一些虚拟机。 但是与此不同的是,本文提出了一种负载预测算法,该算法将根据系统的当前以及将来的工作量来决定是否迁移。 因此,一旦声明节点过载,我们提出的技术就不会立即启动虚拟机迁移。 我们的算法已在CloudSim中进行了仿真,并将其性能与现有的基准算法进行了比较。 结果证明,所提出的技术不仅使数据中心更节能,而且更有效地平衡了工作量。 介绍 当前的大多数研究工作[5-12]基于系统的当前利用率。 如果服务器当前过载,则VM迁移将立即启动[7]。 但是由于迁移的开销,不必要的VM迁移可能会导致违反SLA。 结果,每次VM迁移都会增加运营成本。 因此,问题在于确定何时应开始迁移,以使与SLA违规和额外能耗有关的成本降至最低。 为此,提出了一种基于时间序列的负载预测方法,该方法决定了VM迁移的决策。 当主机的利用率水平超过动态上限时,该主机将被声明为过度利用。 如果服务器现在过载,并且下一个预测的负载也大于动态上限,则将进行迁移。 负载预测模型使我们的算法能够成功减少VM迁移的数量,并通过提供绿色IT解决方案来节省能源。 相关工作 动态比较和平衡算法(DCABA)算法使用了两个云优化概念。 首先是在物理机器级别上优化云系统

时间序列方法

懵懂的女人 提交于 2019-12-02 15:52:50
1、时间序列基本规则法-周期因子法 提取时间序列的周期性特征进行预测,参考: 时间序列规则法快速入门 计算周期因子factors 计算base 预测=base*factors 观察序列,当序列存在周期性时,可以用周期因子法做为baseline 在天池竞赛- 资金流入流出预测-挑战Baseline-天池大赛-阿里云天池 ,周期因子可以取得110分+的成绩,排名进500妥妥的。 2、线性回归-利用时间特征做线性回归 提取时间的周期性特点做为特征,此时训练集每条样本为"时间特征->目标值",时间序列的依赖关系被剔除,不需要严格依赖滑窗截取训练样本。常见是将时间用0-1哑变量表达,有以下若干种特征: 将星期转化为了0-1变量,从周一至周天,独热编码共7个变量 将节假日转化为0-1变量,视具体节假日数目,可简单分为两类,"有假日"-"无假日",独热编码共2个变量;或赋予不同编码值,如区分国庆、春节、劳动节等使用1、2、3表示 将月初转化为0-1变量,简单分两类表示为"是月初"-"非月初",共2个特征 类似的月中、月初可以转化为0-1变量 控制时间粒度,区分是weekday or weekend 观察序列,当序列存在周期性时,线性回归也可做为baseline 在天池竞赛- 资金流入流出预测-挑战Baseline-天池大赛-阿里云天池 ,线性回归可以取得100分+的成绩,应该还没到500

Resample_1

試著忘記壹切 提交于 2019-12-02 05:23:32
resample 功能:对时间序列进行重采样。 格式: 1.y = resample(x, p, q) 采用多相滤波器对时间序列进行重采样,得到的序列y的长度为原来的序列x的长度的p/q倍,p和q都为正整数。此时,默认地采用使用 FIR方法 设计的抗混叠的低通滤波器。 2.y = resample(x, p, q, n) 采用chebyshevIIR型低通滤波器对时间序列进行重采样,滤波器的长度与n成比例,n缺省值为10. 3.y = resample(x, p, q, n, beta) beta为设置低通滤波器时使用Kaiser窗的参数,缺省值为5. 4.y = resample(x, p, q, b) b为重采样过程中滤波器的系数向量。 5.[y, b] = resample(x, p, q) 输出参数b为所使用的滤波器的系数向量。 说明: x--时间序列 p、q--正整数,指定重采样的长度的倍数。 n--指定所采用的chebyshevIIR型低通滤波器的阶数,滤波器的长度与n成比列。 beta--设计低通滤波器时使用Kaiser窗的参数,缺省值为5. 来源: https://www.cnblogs.com/blog-of-cm/p/11731690.html