数据拟合

非线性回归结果分析

眉间皱痕 提交于 2020-02-08 18:42:02
最近发现一个特别好用的统计软件——minitab 在他的帮助文档中,很好的总结了如何比较拟合结果的好坏 以下为具体网址: https://support.minitab.com/zh-cn/minitab/18/help-and-how-to/modeling-statistics/regression/how-to/nonlinear-regression/interpret-the-results/key-results/#step-3-determine-how-well-the-model-fits-your-data 我们在非线性和线性拟合后,会得到残差平方和、决定系数R方等等,之前我一直用前两个来比较拟合优度,但是对于不同的拟合方程,他们的残差平方和也不同。当我们确定一个线性模型与数据的吻合程度时,几乎会将所有注意力集中在R-squared上。但是,以前我曾经说过R-squared被高估了。下面会提供一些其他的方法。 简单概述概述一下。 在此之前需要明白几个术语: 其他参数见网址:( https://support.minitab.com/zh-cn/minitab/18/help-and-how-to/modeling-statistics/regression/how-to/fitted-line-plot/methods-and-formulas/methods

python实现2019-nCoV疫情确诊数据拟合与预测

China☆狼群 提交于 2020-02-07 06:52:13
python实现2019-nCoV疫情确诊数据拟合与预测 思路 第一步 散点图 第二步 拟合 第三步 预测 完整代码 接上期,在 获取2019-nCoV疫情实时追踪数据 后,接下来就要着手探索这些数据的规律和内在联系了。 思路 第一步,画出现有数据的散点图,大致了解其分布规律 第二步,利用现有数据拟合出曲线,求解拟合曲线的参数 第三步,利用拟合曲线对未来预测 下面严格按照这散布走模式进行 第一步 散点图 按照时间序列将确诊病人数在坐标轴上描出散点,同时添加坐标的标签,顺便更改横坐标的刻度标签,使得其看起来像随时间变化而变化的。 fig = plt . figure ( figsize = ( 10 , 4 ) ) #建立画布 ax = fig . add_subplot ( 1 , 1 , 1 ) ax . scatter ( t , confirm , color = "k" , label = "确诊人数" ) #真实数据散点图 #ax.set_xlabel("天数") #横坐标 ax . set_ylabel ( "确诊人数" ) #纵坐标 ax . set_title ( "确诊人数变化" ) #标题 ax . set_xticklabels ( [ '' , '1月13号' , '1月18号' , '1月23号' , '1月28号' , '2月2号' ] ,

机器学习(Machine Learning)- 吴恩达(Andrew Ng) 学习笔记(十)

久未见 提交于 2020-02-06 23:45:46
Advice for applying machine learning Decide what to try next Debugging a learning algorithm 调试学习算法 Suppose you have implemented regularized linear regression to predict housing prices. \[ J(\theta) = \frac{1}{2m} \left[ \sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^m\theta_j^2 \right] \] However, when you test your hypothesis on a new set of houses, you find that it makes unacceptably large errors in its predictions. What should you try next? 假如你已经完成了房价预测的正则化线性回归(也就是最小化代价函数 \(J\) 的值),然而在你测试新的样例时发现产生了巨大的误差。要想改进这个算法你该怎么办? 可选的方法: Get more training examples 用更多的训练样本(收集样本耗费太大精力)

上周热点回顾(1.27-2.2)

与世无争的帅哥 提交于 2020-02-03 09:58:21
热点随笔: · 肺炎确诊人数增长趋势拟合和预测(截止1月30日) ( 图灵的猫 ) · 肺炎确诊人数增长趋势拟合和预测(截止2月1日) ( 图灵的猫 ) · 一文带你了解 HTTP 黑科技 ( cxuan ) · 如何实现延迟队列 ( rickiyang ) · 只会前端让我很丢人 ( xing.org1^ ) · 漫长的春节假期 - 确诊数据可视化 ( upupfeng ) · 你真的知道如何设置数据库连接池的大小吗 ( rickiyang ) · .net core 常见设计模式-IChangeToken ( 变形精怪 ) · 【译】强化表单的9个Vue输入库 ( LINJIAJUN ) · 疫情下的远程办公实践指南 ( Nauyus ) · 牛逼!一行代码居然能解决这么多曾经困扰我半天的算法题 ( 帅地 ) · CSS动效集锦,视觉魔法的碰撞与融合(三) ( 彭湖湾 ) 热点新闻: · 清华大学免费开放知识库:无需登录、注册 在家就能上清华 · 蝙蝠究竟有什么特别之处,能在体内藏这么多致命病毒? · Ubuntu 发布迁移手册,拉拢 Windows 7 用户 · 兵进光刻机,中国芯片血勇突围战 · 性能媲美七代酷睿i5!兆芯开先KX-U6780A x86处理器零售开卖 · 加速新冠疫苗研发,阿里云免费开放一切AI算力! · 火神山医院交付!首个远程会诊平台投入使用

数学建模模型8——回归1 cftool工具箱

半城伤御伤魂 提交于 2020-02-02 17:28:47
启动方法: 命令行窗口输入cftool 拟合数据 示例 1 假设我们要拟合的函数形式是 y=A x^2 + B x, 且 A>0, B>0。 数据: x=[110.3323 148.7328 178.064 202.8258033 224.7105 244.5711 262.908 280.0447 296.204 311.5475]; y=[5 10 15 20 25 30 35 40 45 50]; 进入曲线拟合工具箱界面“Curve Fitting tool”: 1)利用 X data 和 Y data 的下拉菜单读入数据 x,y,这时会自动画出数据集的曲线图,注意右侧的 Auto fit 选项; 2)通过下拉菜单“Type of fit”选择拟合曲线的类型,工具箱提供的拟合类型有: Custom Equations:用户自定义的函数类型 Exponential:指数逼近,有 2 种类型, a e b x ae^{bx} a e b x 、 a e b x + c e d x ae^{bx}+ce^dx a e b x + c e d x Fourier:傅立叶逼近,有 7 种类型,基础型是 a 0 + a 1 c o s ( x w ) + b 1 s i n ( x w ) a_0+a_1cos(xw)+b_1sin(xw) a 0 ​ + a 1 ​ c o s ( x

肺炎确诊人数增长趋势拟合和预测(截止1月30日)

牧云@^-^@ 提交于 2020-02-02 09:46:53
预测明天(1月31日)确诊感染人数为9000,预计31日12时至24时增长区间为9000-9500。 1月29日预测1月30日确诊感染人数为8000,实际感染人数7736。预计30日12时至24时增长区间为8000-8500。 ​1月28日预测1月30日感染确诊人数为6000,实际感染人数5999。预计29日12时至24时增长区间为6000-7000。 截止目前(1月28日),数据都符合简单的指数曲线增长趋势。 所有数据都来自官方公布的确诊人数,取每天中午12点的人数为准。前4天没有拟合,因为数据点太少。 第4天(1月24日) 第6天(1月26日) 第8天(1月28日) 第9天(1月29日) 需要声明的是 1)没有任何证据显示预测人数是准确无误的,本文也不构成任何建议。这里只是简单的做一个数据分析,用的是指数曲线进行拟合,公式已经在图里了。 2)这几张图只能说明在疫情扩散前期,是符合简单的指数曲线增长规律的。在国家严密防控的情况下,潜伏期后,确认人数的增长速度一定会放缓。 这里我没有使用复杂的时间序列模型和RNN类模型,因为预测出来的反而会过拟合。经过测试,只有简单的指数模型拟合度更高,这可能是和传染病扩散的原理有关,具体的大家可以自己去搜索研究。 权威专家意见 老幺 https://www.laoyao.org 1)1月28日,钟南山院士接受新华社专访,谈了他对疫情的最新看法

肺炎确诊人数增长趋势拟合和预测(截止2月1日)

依然范特西╮ 提交于 2020-02-01 19:08:37
预测2月2日确诊感染人数为14000,增长区间为14000-14500 昨日(1月31日)预测2月1日确诊感染人数为11500,增长区间为11500-12000。目前实际感染人数11800,误差较小。 前日(1月30日)预测1月31日确诊感染人数为9500,目前实际感染人数9723例,增速环比上升,但和模型相比再次放缓。增长区间为9500-10000 更新:昨天预测1月30日确诊感染人数为8500,目前实际感染人数8147例,增速再次放缓 更新:1月29日,预测感染确诊人数6000(中午12时),实际感染人数5999。预计29日12时至24时增长区间为6000-7000,因为增长速度放缓,区间缩小为6000-6200。 截止目前(1月28日),数据都符合简单的指数曲线增长趋势。 所有数据都来自官方公布的确诊人数,取每天中午12点的人数为准。前4天没有拟合,因为数据点太少。 第4天(1月24日) 第6天(1月26日) 第8天(1月28日) 第9天(1月29日) 第10天(1月30日) 第11天(1月31日) 第12天(2月1日) 需要声明的是 1)没有任何证据显示预测人数是准确无误的,本文也不构成任何建议。这里只是简单的做一个数据分析,用的是指数曲线进行拟合,公式已经在图里了。 2)这几张图只能说明在疫情扩散前期,是符合简单的指数曲线增长规律的。在国家严密防控的情况下,潜伏期后

肺炎确诊人数增长趋势拟合和预测(截止1月30日)

允我心安 提交于 2020-01-30 22:13:14
预测明天(1月31日)确诊感染人数为9000,预计31日12时至24时增长区间为9000-9500。 1月29日预测1月30日确诊感染人数为8000,实际感染人数7736。预计30日12时至24时增长区间为8000-8500。 ​1月28日预测1月30日感染确诊人数为6000,实际感染人数5999。预计29日12时至24时增长区间为6000-7000。 截止目前(1月28日),数据都符合简单的指数曲线增长趋势。 所有数据都来自官方公布的确诊人数,取每天中午12点的人数为准。前4天没有拟合,因为数据点太少。 第4天(1月24日) 第6天(1月26日) 第8天(1月28日) 第9天(1月29日) 需要声明的是 1)没有任何证据显示预测人数是准确无误的,本文也不构成任何建议。这里只是简单的做一个数据分析,用的是指数曲线进行拟合,公式已经在图里了。 2)这几张图只能说明在疫情扩散前期,是符合简单的指数曲线增长规律的。在国家严密防控的情况下,潜伏期后,确认人数的增长速度一定会放缓。 这里我没有使用复杂的时间序列模型和RNN类模型,因为预测出来的反而会过拟合。经过测试,只有简单的指数模型拟合度更高,这可能是和传染病扩散的原理有关,具体的大家可以自己去搜索研究。 权威专家意见 1)1月28日,钟南山院士接受新华社专访,谈了他对疫情的最新看法。钟南山表示,疫情应该在一周或者10天左右达到高峰

机器学习之正则化

假装没事ソ 提交于 2020-01-28 21:16:15
一、防止过度拟合 过度拟合问题: 例如:那个用线性回归来预测房价的例子,我们通过建立以住房面积为自变量的函数来预测房价,我们可以对该数据做线性回归,以下为三组数据做线性拟合的结果: ①第一个图我们用直线去拟合,这不是一个很好的模型。 我们看看这些数据,很明显,随着房子面积增大,住房价格的变化应趋于稳定,或者越往右越平缓。 因此该算法没有很好拟合训练数据,我们把这个问题称为欠拟合(underfitting),这个问题的另一个术语叫做高偏差(bias) 。 ②第二个图我们用二次函数来拟合它,这个拟合效果很好 。 ③第三个图我们拟合一个四次多项式,因此在这里我们有五个参数 θ0到θ4 这样我们可以拟合一条曲线,通过我们的五个训练样本,你可以得到看上去如此的一条曲线。 这条回归直线似乎对训练数据做了一个很好的拟合,因为这条曲线通过了所有的训练实例。但是这仍然是一条扭曲的曲线。事实上,我们并不认为它是一个预测房价的好模型。 所以 这个问题我们把他叫做过度拟合或过拟合(overfitting),另一个描述该问题的术语是高方差(variance)。 高方差是另一个历史上的叫法,但是从第一印象上来说,如果我们拟合一个高阶多项式,那么这个函数能很好的拟合训练集,能拟合几乎所有的训练数据。这就面临可能函数太过庞大的问题、变量太多。 如果我们没有足够的数据去约束这个变量过多的模型 那么这就是过度拟合。

肺炎确诊人数增长趋势拟合和预测(截止1月28日)

南楼画角 提交于 2020-01-28 20:12:52
截止目前(1月28日),数据都符合简单的指数曲线增长趋势。 所有数据都来自官方公布的确诊人数,取每天中午12点的人数为准。前4天没有拟合,因为数据点太少。 第4天(1月24日) 第6天(1月26日) 第8天(1月28日) 需要声明的是,没有任何证据显示预测人数是准确无误的,本文也不构成任何建议。这里只是简单的做一个数据分析,用的是指数曲线进行拟合,公式已经在图里了。 这几张图只能说明在疫情扩散前期,是符合简单的指数曲线增长规律的。我没有使用复杂的时间序列模型和RNN类模型,因为预测出来的反而会过拟合。经过测试,只有简单的指数模型拟合度更高,这可能是和传染病扩散的原理有关,具体的大家可以自己去搜索研究。 可以确定的是,14天内的预测是比较合理的,因为病毒的潜伏期为14天。在国家严密防控的情况下,14天后,确认人数的增长速度一定会放缓。根据武汉大学中南医院感染科教授桂希恩的预测,发病率“转弯”以周计算,预计正月十五前武汉市的疫情扩散会出现拐点,大家一定要保持信心。 PS. 如果有人看,之后每天我都会更新一下曲线,同时验证一下之前的曲线预测的拟合和误差情况。 最后提醒大家,勤洗手,多通风,记保暖,戴口罩。远离病毒,保护健康,人人有责~ 来源: https://www.cnblogs.com/y1ran/p/12238609.html