结合日常生活的例子，了解什么是卡方检验-LaoLiulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4635705
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

01 什么是卡方检验：

卡方检验就是检验两个变量之间有没有关系。
以运营为例:

卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别；
不同城市级别的消费者对买SUV车有没有什么区别；

如果有显著区别的话，我们会考虑把这些变量放到模型或者分析里去。

02 投硬币

那我们先从一个最简单的例子说起。
1）根据投硬币观察到的正面，反面次数，判断这个硬币是均衡的还是不均衡。
现在有一个正常的硬币，我给你投50次，你觉得会出现几个正面，几个反面？

按照你的经验你会这么思考，最好的情况肯定是25个正面，25个反面，
但是肯定不可能这么正正好好的，嗯，差不多28个正面，22个反面吧；
23个正面，27个反面也可能的，
但是10个正面，40个反面肯定不可能的，除非我运气真的那么碰巧。

你上面的这个思维方式，就是拿已经知道的结果(硬币是均衡的，没有人做过手脚)，推测出会出现的不同现象的次数。

而卡方检验是拿观察到的现象(投正面或反面的次数或者频数)，来判断这个结果(硬币是不是均衡的)。

继续上面这个例子，
如果我不知道这个硬币是不是均衡的，我想用正面，反面的频次来判断，我投了50次，
其中28个正面，22个反面。我怎么用卡方检验来证明这个硬币是均衡的还是不均衡的呢？

这里要引出卡方检验的公式：

这个公式可以帮我们求出卡方检验的值，我们用

1 这个公式求得的值
2 自由度(degree of freedom，不熟悉的可以去看我在简书的)
3 置信度

其中，自由度我们可以求出来，置信度的话，我们按照我们自己意愿挑选，一般我们会挑90％或者95%。

这三个数值计算方法如下：

我们拿到这3个信息，去查表，因为0.72小于查表得到的3.841，所以我们得出这个硬币是均衡的结论。

这里还涉及到假设检验中，拒绝H0还是不拒接H0，这篇文章就不详细展开了。

如果你们查表后，还是不知道是该大于的时候说均衡，还是小于的时候说均衡，那么你们可以想一下具体这个例子，
如果硬币是均衡的话，你觉得卡方的值是越小越可能是均衡的，还是越大越可能是均衡的呢？

03 投筛子

接下来，我们再来看一个稍微难一点的例子，投骰子。
有一个筛子，我不知道它是不是均衡的，于是我打算投36次看一下。

按照投硬币的方式，我先要画出一个表格，然后计算出3个数值，

带着这3个值，我们去查表，于是我们得出这个现象不能判定他是个均衡的筛子。

现在你明白其实卡方检验一点都不深奥吧。

以后如果分析师说，这个变量不显著，我把这个变量去掉了，
你就可以反问他，那卡方值是多少？
你选了多大的置信度？

04 电商中消费者的性别和购买生鲜

最后讲个平时运营分析中的案例：

我们要观察性别和在线上买不买生鲜食品有没有关系，现实生活中，女性通常去菜市场买菜的比较多，那么在线上是不是也这样。

我们得出观察到数据，并且形成表格后，我们需要计算理论的数据，在上面的例子我们发现，我们发现有66%的人不在线上买生鲜（599除以907），34%的人会在线上买。那如果，男的有733个人，女的有174个人，根据这些比例，我们可以得出的理论值是什么呢？

根据理论和实际值，我们可以算出卡方值，自由度，并且结合我们定义的置信度，查表得到性别和线上买生鲜是显著相关的。
所以我们如果下次看到一个女性来访问我们的网站，多投放一些广告，说不定会转化哦。

看了这几个例子，是不是觉得卡方检验一点都不复杂，其实和我们生活这么贴近，我们平时的思维方式，其实就隐含着卡方检验的道理。

作者：Yan文怡
链接：
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

阅读(788) | 评论(0) | 转发(0) |

上一篇：随机森林random forest及python实现

下一篇：读完这篇，连小学生都看的懂什么是机器学习里的boosting

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6