statsmodels

'<' not supported between instances of 'float' and 'str' Error for Tukey HSD Test

跟風遠走 提交于 2020-12-26 04:59:52
问题 I get a strange error when running the Tukey test. I hope somebody is able to help me with this as I tried a lot. This is my dataframe: Name Score 1 A 2.29 2 B 2.19 This is my Tukey Test code: #TUKEY HSD TEST tukey = pairwise_tukeyhsd(endog=df['Score'].astype('float'), groups=df['Name'], alpha=0.05) tukey.plot_simultaneous() plt.vlines(x=49.57,ymin=-0.5,ymax=4.5, color="red") tukey.summary() This is the error: <ipython-input-12-3e12e78a002f> in <module>() 2 tukey = pairwise_tukeyhsd(endog=df[

干货 :手把手教你用Python进行时间序列分解和预测

隐身守侯 提交于 2020-12-19 14:45:14
作者:Mohit Sharma 翻译:王闯(Chuck) 校对:王可汗 本文 约4100字 ,建议阅读 10+ 分钟 本文介绍了用Python进行时间序列分解的不同方法,以及如何在Python中进行时间序列预测的一些基本方法和示例。 预测是一件复杂的事情,在这方面做得好的企业会在同行业中出类拔萃。时间序列预测的需求不仅存在于各类业务场景当中,而且通常需要对未来几年甚至几分钟之后的时间序列进行预测。如果你正要着手进行时间序列预测,那么本文将带你快速掌握一些必不可少的概念。 目录 什么是时间序列? 如何在Python中绘制时间序列数据? 时间序列的要素是什么? 如何分解时间序列? 经典分解法 如何获得季节性调整值? STL分解法 时间序列预测的基本方法: Python中的简单移动平均(SMA) 为什么使用简单移动平均? Python中的加权移动平均(WMA) Python中的指数移动平均(EMA) 什么是时间序列? 顾名思义,时间序列是按照固定时间间隔记录的数据集。换句话说,以时间为索引的一组数据是一个时间序列。请注意,此处的固定时间间隔(例如每小时,每天,每周,每月,每季度)是至关重要的,意味着时间单位不应改变。别把它与序列中的缺失值混为一谈。我们有相应的方法来填充时间序列中的缺失值。 在开始使用时间序列数据预测未来值之前,思考一下我们需要提前多久给出预测是尤其重要的

独家 | 手把手教你用Python进行时间序列分解和预测

落花浮王杯 提交于 2020-12-18 14:02:32
作者:Mohit Sharma 翻译:王闯(Chuck) 校对:王可汗 本文 约4100字 ,建议阅读 10+ 分钟 本文介绍了用Python进行时间序列分解的不同方法,以及如何在Python中进行时间序列预测的一些基本方法和示例。 预测是一件复杂的事情,在这方面做得好的企业会在同行业中出类拔萃。时间序列预测的需求不仅存在于各类业务场景当中,而且通常需要对未来几年甚至几分钟之后的时间序列进行预测。如果你正要着手进行时间序列预测,那么本文将带你快速掌握一些必不可少的概念。 目录 什么是时间序列? 如何在Python中绘制时间序列数据? 时间序列的要素是什么? 如何分解时间序列? 经典分解法 如何获得季节性调整值? STL分解法 时间序列预测的基本方法: Python中的简单移动平均(SMA) 为什么使用简单移动平均? Python中的加权移动平均(WMA) Python中的指数移动平均(EMA) 什么是时间序列? 顾名思义,时间序列是按照固定时间间隔记录的数据集。换句话说,以时间为索引的一组数据是一个时间序列。请注意,此处的固定时间间隔(例如每小时,每天,每周,每月,每季度)是至关重要的,意味着时间单位不应改变。别把它与序列中的缺失值混为一谈。我们有相应的方法来填充时间序列中的缺失值。 在开始使用时间序列数据预测未来值之前,思考一下我们需要提前多久给出预测是尤其重要的

How to use scale and shape parameters of gamma GLM in statsmodels

别来无恙 提交于 2020-12-12 06:15:08
问题 The task I have data that looks like this: I want to fit a generalized linear model (glm) to this from a gamma family using statsmodels . Using this model, for each of my observations I want to calculate the probability of observing a value that is smaller than (or equal to) that value. In other words I want to calculate: P(y <= y_i | x_i) My questions How do I get the shape and scale parameters from the fitted glm in statsmodels ? According to this question the scale parameter in statsmodels

how to solve LinAlgError & ValueError when training arima model with Python

ⅰ亾dé卋堺 提交于 2020-12-04 02:09:37
问题 I am trying to implement a time series model and getting some strange exceptions that tells nothing to me. I wonder if I am making a mistake or if it is totally expected. Here comes details... When training my model, I try to make a grid search to find the best (p, d, q) settings. Here is the complete code (and I will explain down below what is happening here): The reproducible code below is essentially a copy from https://machinelearningmastery.com/grid-search-arima-hyperparameters-with

how to solve LinAlgError & ValueError when training arima model with Python

醉酒当歌 提交于 2020-12-04 02:07:02
问题 I am trying to implement a time series model and getting some strange exceptions that tells nothing to me. I wonder if I am making a mistake or if it is totally expected. Here comes details... When training my model, I try to make a grid search to find the best (p, d, q) settings. Here is the complete code (and I will explain down below what is happening here): The reproducible code below is essentially a copy from https://machinelearningmastery.com/grid-search-arima-hyperparameters-with

时间序列模型步骤教程(ARIMA)

一曲冷凌霜 提交于 2020-10-30 08:14:20
什么是时间序列 时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,它主要是研究自身的变化规律的(这里不考虑含外生变量的时间序列)。 时间序列的分析的步骤是 先对数据进行平稳性和非白噪声检验(如不满足需对数据进行平滑或差分等预处理),然后才是模型调参跟预测 ,因此本文分为2大部分介绍,答题思路见脑图。 一、数据准备&探索 1、平稳性 序列平稳性是进行时间序列分析的前提条件 为什么要满足平稳性的要求呢?在大数定理和中心定理中要求样本同分布(这里同分布等价于时间序列中的平稳性),而我们的建模过程中有很多都是建立在大数定理和中心极限定理的前提条件下的,如果它不满足,得到的许多结论都是不可靠的。以虚假回归为例,当响应变量和输入变量都平稳时,我们用t统计量检验标准化系数的显著性。而当响应变量和输入变量不平稳时,其标准化系数不在满足t分布,这时再用t检验来进行显著性分析,导致拒绝原假设的概率增加,即容易犯第一类错误,从而得出错误的结论。 判断一个序列是不是平稳序列有三个评判标准: 均值 ,是与时间t 无关的常数。 方差 ,是与时间t 无关的常数。这个特性叫做方差齐性。 协方差 ,只与时期间隔k有关,与时间t 无关的常数。 如下所示分别为稳定的数据和均值不稳定、方差不稳定、自协方差随时间变化 1.1