全美美女最多的学校?
Wisc CS 170(统计)的TA。本科CS,研究生统计,PhD in Biostatistics. 混过两个数据界的牛人组(Kass & Lehmann 和 Rabinowitz),现在在UW ECE给CSC492/592/692/892上分。
首先,这个问题问的是“最”多,而非“最多”。这意味着我们探讨的不是“谁比谁帅”这种主观问题,而是一个存在量级的比较——不同学校的美女基数之差。所以答案并不是“Yale以一己之力碾压群雄”或者类似这样的主观描述。
统计上的“多”和“少”意味着不同学校的女大学生比例之差达到了统计学显著性水平。换言之,如果一个学校美女的比例高于平均值+两倍标准差之外,我们就可以说这个学校美女多。 当然,由于不同学校对“女”的定义可能不一样(比如有些学校把女生比例高的专业也纳入计算,而有的则否),我们需要找到这样一个基准值,使得所有学校对“女”的定义一致。这样,我们才能计算出各个学校的女大学生比例之差。
显然,这个基值的选择很重要。如果选得合适,我们就能得出各个学校在统计学意义上的“多”和“少”,进而得到“全美最美大学排行榜”。
然而,现实是没有这么完美的。
第一个问题是,我们无法得知一个正确的基值是什么。因为选择不同的基值,会导致结果完全不一样(虽然大多数情况下差异并不会大到能影响到排名)。
第二个问题是,即使我们找到了某个自认为合理的基值,但由于无法获得所有学校的详细学生统计数据,我们就必须选择一个近似的方法来估算每个学校的女大学生比例。也就是说,我们只能在“整体与局部”之间做选择。想要同时兼顾二者是很困难的。
下面给出我试图解决的思路(PS: 这是我在 UW CSE 392 的课程作业中使用的模型,这个题目被用作最后的期末考试。)
假设我们要研究的对象是n个学校的学生。我们把每个学校的人数记为 N_i (i=1...n),把女学生人数记为 D_i (i=1...n)。我们的目标是计算每个学校的\phi_i,使Z_{ij}=\frac{D_i}{N_i}\cdot \phi_i 达到最大值。 Z_{ij} 是第 j 个学生的归一化指标;\phi_i 是第 i 所学校对应的女学生比例;而 N_i 和 D_i 分别是第 i 所学校的总学生和女生数量。
为了求解 \phi_i,我们首先需要求解\sum_{j=1}^n w_jZ_{ij} 等于常数。这里 w_j 是对应学生的权重。我们可以通过最大化此函数得到 \phi_i。然而,当 n 很大的时候,直接求解是非常困难甚至是不可能的事情。我们采取下策,用 Pareto 优化来近似目标函数并求解。具体细节我就不写了,见课后作业。
最后,我们得到了每个学校的\phi_i 以及对应的 Z_{ij}。根据前面定义的算法,我们就可以得到每个学校女生比例的相对差值。而这个差值就是美少妇的比例!