回归模型

COX 比例风险回归模型--有感

夙愿已清 提交于 2019-11-26 20:12:14
生存分析 三大块内容: 1,描述性的 生存率、中位生存期、生存曲线等,常用Kaplan-meier法 2,比较分析 两组的生存曲线是否有差别,log-rank检验(单个因素) 3,cox比例风险回归 类似logistic回归,多个变量对Y的影响,得到一个概率值,只不过加了时间 多花点时间聊聊cox的感受 首先理解一个概念 风险函数(hazard function)h(t)=f(t)/S(t) f(t)为瞬时死亡率,其实就是时间趋近于零时刻的死亡率,又称死亡概率密度函数,曲线下面积为1. S(t)为生存率:a, 若无删失,表示为t时刻存活人数/总观察人数        b,若有删失,计算为各个时段下生存概率的乘积( 生存概率:活过该年的人数/年初人数) 象形的理解,瞬时死亡率只受到某时刻,死亡人数的影响,若t时刻死亡10人,瞬时死亡率肯定高于t+1时刻死亡1人 而,生存率,会越来越低。分子/分母,h(t)风险函数肯定增大。 对于COX风险比例模型,h(t,x)=h0(t)exp(βX)=h0(t)exp(β1x1+β2x2+```+βx) 前半部分为基线风险函数,不需要特定分布,为非参 后半部分相当于对多重线性回归的输出进行了次方变换,保证了 正值和 单调性 (参数模型) 两者相乘即为COX,(半参) 那么聊聊参数估计 对偏似然函数 ,采用极大似然估计 先不管这个所谓偏似然函数

人工智能之机器学习与数据挖据之WEKA使用与实践

家住魔仙堡 提交于 2019-11-26 02:07:59
阅读对象 只要你想读,你就读呗!最好点个赞再走。。。:-) 本文尽量通过例子和直观描述,来说明人工智能中机器学习和数据挖据的主要概念,分类,和使用方法,并通过例子描述如何使用它来促进公司业务发展。虽然标题偏技术,但内容涵盖面较广,涉及业务,产品,技术等多方面。主要目的是说清楚公司如何使用数据挖据为业务提速,所以推荐的阅读对象,是公司中高级运营管理人员,创始人。但并不一定合适人工智能,数据挖据的技术专家,因为它基本不涉及人工智能和数据挖据的底层技术,也不涉及深层次的数学原理和算法研究。 前言 近年来,人工智能,大数据是一个非常热门的词汇。与一些更加前沿的科技例如量子计算,神经网络,虚拟现实,区块链等等不同,这一类技术里面,已经有一些分类,实实在在地被商用并且产生了可观的效益。简单地说,本文所描述的数据挖据相关内容,事实上就是人工智能和大数据的一种结合。 哪儿有数据挖掘哪儿就有“啤酒与尿布”, “沃尔玛啤酒和尿布的故事”这个经典的案例是从事这行研究的人都知道的一个故事,说的是沃尔玛超市(Walmart)会在周末时把啤酒移到尿布货架的未端,这是因为沃尔玛的数据挖掘专家告诉老板,他们的研究结果显示男士通常会在周末购买尿布,而他们同时也喜欢在周末喝啤酒,如果放在一起那肯定会提升销售,老板照做了,结果啤酒销售果然增加了40%以上。。。很想知道这个经典案例是真实的还是为了宣传数据挖掘而制造的