Office办公-高考-菜鸟图库

高考

闲谈生活中的数据分析统计学

2022-12-31

最近在学习陈老师的《数据分析贤内助》，也参加了对岸的统计简单学网络课程。感觉还是不错的，虽然才开始学不久。来分享2个最近身边和网上发生的事情，我尝试用统计学来进行解释。讲的不好，但希望抛砖引玉。事件1：昨晚一个群里在谈应届生待遇的问题，不同的人谈到自己知道的不同的待遇，而且差距也很大。我最后说了一句话，对比要可比，你们谈的根本缺乏可比性。具体解释：比如说刚才有人谈学历对待遇的影响，本来话题是谈应届生的，有人却谈到他的上级中专学历现在收入差不多2万每月。这根本没有可比性，这2万不是他应届时，而是他工作多年后的结果。退一步讲，不同行业也是很大差异的，对比缺乏可比性就根本没有意义。对比要可比，这是《数据分析贤内助》里面讲的信度原则。事件2：最近不是说英语在高考中的比重要下降吗，然后不知道谁在微博发起了数学滚出高考。得到了大量人的响应，统计结果说7成人支持数学滚出高考。70%哦，好大的比重。但其实这结果是很有问题的。具体解释：首先这投票只是针对网络上，更可能只是微博上的人群。这类似统计学中的简单随机抽样，但这方法的最大缺点是很可能造成样本过于集中在一块部分。类似例子晚会抽奖，明明就是随机抽的，每个人的概率应该是相等的，但为什么总感觉得奖的人老是要么集中在一个部门里，或者是一张桌上。这和网络那种投票是一样的道理，样本过于集中在某一块，需要用分层抽样进行，这才更为合理些。就像一个数据分析朋友举了个极端的例子，如果调查小学生要不要取消考试，估计结果是90%以上支持取消考试。这是我在统计简单学里学到的。还有个问题时，样本量是否足够大，是否可信度足够高，进而推断样本。大概

可比性, 样本, 统计, 高考,

共 133 次浏览