Python计算IV值

匿名 (未验证) 提交于 2019-12-02 22:51:30

更多风控建模、大数据分析等内容请关注公众号《大数据风控的一点一滴》

在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下:

def CalcIV(Xvar, Yvar): 
   N_0  = np.sum(Yvar==0)
   N_1 = np.sum(Yvar==1)
   N_0_group = np.zeros(np.unique(Xvar).shape)
   N_1_group = np.zeros(np.unique(Xvar).shape)
   for i in range(len(np.unique(Xvar))):
       N_0_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 0)].count()
       N_1_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 1)].count()
   iv = np.sum((N_0_group/N_0 - N_1_group/N_1) * np.log((N_0_group/N_0)/(N_1_group/N_1)))
   return  iv   
   
def caliv_batch(df, Kvar, Yvar):
   df_Xvar = df.drop([Kvar, Yvar], axis=1)
   ivlist = []
   for col in df_Xvar.columns:
       iv = CalcIV(df[col], df[Yvar])
       ivlist.append(iv)
   names = list(df_Xvar.columns)
   iv_df = pd.DataFrame({'Var': names, 'Iv': ivlist}, columns=['Var', 'Iv'])

   return iv_df

其中,df是分箱后的数据集,Kvar是主键,Yvar是y变量(0是好,1是坏)。代码运行结果如下:


转载请标明出处:Python计算IV值
文章来源: Python计算IV值
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!