python生命线中的生存函数是否过于乐观？

def add_time_subscribed(rd): rd['weeks_subscribed'] = 0 for index, row in rd.iterrows(): if (not row['stopped']) and (not row['_paused']): end_date = datetime.now(tz=pytz.UTC) else: end_date = row['paused_at'] rd.loc[index,'weeks_subscribed'] = (end_date - row['subscribed_at']).days/7 def stayers_per_week(rd): y_axis = np.zeros(int(rd['weeks_subscribed'].max())+1) for index, row in rd.iterrows(): for i in range(int(row['weeks_subscribed'])+1): y_axis[i] += 1 x_axis = [i for i in range(len(y_axis))] return x_axis, y_axis/y_axis[0]

1条回答

网友

1楼 · 发布于 2024-09-29 23:15:09

这两张图不相似的原因有很多

我建议您绘制Kaplan meir拟合生存函数：

from lifelines import KaplanMeierFitter
kmf = KaplanMeierFitter()
kmf.fit(dummies['weeks_suscribed'], event_observed=dummies['stopped']) 
kmf.plot_survival_function()

然后，您还可以绘制“地址、地址、国家、名称、荷兰”的图，取值为0和1：

kmf = KaplanMeierFitter()
for value in [0,1]:      
    kmf.fit(dummies[dummies['addresses__address__country__name_Nederland']==value]['weeks_suscribed'], event_observed=dummies[dummies['addresses__address__country__name_Nederland']==value]['stopped']) 
    kmf.plot_survival_function()

这可能会让你对缺乏连贯性有更好的了解

相关问题更多 >

编程相关推荐

热门问题

热门文章