首页 > 代码库 > 【经验分享】卡方检验实战--检验次日留存率与用户分类的独立性
【经验分享】卡方检验实战--检验次日留存率与用户分类的独立性
问题背景
最近某个游戏内测,给到一批内测用户,并且将每位用户标记为RPG游戏用户,休闲游戏用户和卡牌游戏用户中的一种。期望分别统计出这几类用户的次日留存率,并观察是否有明显的区别,用于指导后续开展游戏运营活动。
这里记录使用卡方检验技术验证用户种类与次日行为的独立性,作为备忘。
统计结果
经过数据清理和统计,得到下面的结果
用户类型 | 注册日期 | 注册人数 | 次日留存用户 | 次日留存率 | 平均次日留存率 |
RPG | day1 | 2,504 | 752 | 69.97% | 74.50% |
RPG | day2 | 2,718 | 701 | 74.21% | |
RPG | day3 | 2,538 | 692 | 72.73% | |
RPG | day4 | 2,207 | 540 | 75.53% | |
RPG | day5 | 2,004 | 464 | 76.85% | |
RPG | day6 | 1,899 | 458 | 75.88% | |
RPG | day7 | 1,243 | 294 | 76.35% | |
休闲 | day1 | 2,983 | 925 | 68.99% | 73.45% |
休闲 | day2 | 3,219 | 864 | 73.16% | |
休闲 | day3 | 3,067 | 863 | 71.86% | |
休闲 | day4 | 2,715 | 686 | 74.73% | |
休闲 | day5 | 2,442 | 607 | 75.14% | |
休闲 | day6 | 2,295 | 584 | 74.55% | |
休闲 | day7 | 1,523 | 370 | 75.71% | |
卡牌 | day1 | 2,102 | 675 | 67.89% | 73.04% |
卡牌 | day2 | 2,198 | 584 | 73.43% | |
卡牌 | day3 | 1,908 | 542 | 71.59% | |
卡牌 | day4 | 1,643 | 422 | 74.32% | |
卡牌 | day5 | 1,454 | 372 | 74.42% | |
卡牌 | day6 | 1,382 | 370 | 73.23% | |
卡牌 | day7 | 883 | 208 | 76.44% |
‘
P.S.: 上面数据在不影响效果的基础上,进行过处理,并不代表真实的业务数据。
通过观察上面的数据,基本上可以判断不同类型游戏的次日留存率没有显著区别。但是,真的是这样吗?
卡方检验
可以通过卡方[1]检验来验证不同类别的游戏用户的流失和留存人数是否相互独立。
假设
原始假设H-0:用户次日行为与用户类别相互独立。
备选假设Ha:用户次日行为与用户类别有相关性。
PS:次日行为指次日流失或留存,用户类别为RPG,休闲或卡片类
选择显著性水平α=1%
统计
在R中,通过卡方检验,可以得到如下统计结果
卡方值:9.36, p值[4]:0.9%
结论
由于P值=0.9%,小于显著性水平α=1%,所以可以拒绝原始假设H0,接受备选假设H-a,也就是用户的类别的确影响了用户的次日留存情况,并不是相互独立的。
这里下载统计代码和数据。
参考
[1] 卡方检验wiki
[2] 卡方检验实战
[3] 《深入浅出统计学/Head First Statistics》第十四章
[4] P值wiki
【经验分享】卡方检验实战--检验次日留存率与用户分类的独立性