2025年3月6日下午,统计与数据科学学院第69期本科生论坛在范孙楼116报告厅顺利举行。南开大学统计与数据科学学院特聘副研究员陈博以《基于任意相关性的假设检验结果整合方法及其应用》为题,为学院师生带来了精彩的学术讲座。
陈博首先从多p值组合检验的背景切入,介绍了如何通过整合多个独立假设检验的p值来验证全局零假设(所有局部零假设均成立)与备择假设(至少一个局部假设不成立)。他列举了Fisher方法和Tippett最小p值法。结合基因组关联研究(GWAS)中数百万个单核苷酸多态性(SNP)与表型的关联分析案例,陈博指出,传统方法依赖独立假设的局限性在复杂数据中尤为突出,相关性的存在会导致一类错误率显著偏离预期。
随后,陈博重点讲解了Cauchy组合检验(CCT)的提出与核心思想。通过将p值映射到Cauchy分布,CCT巧妙地解决了传统方法依赖独立假设或已知相关性的难题。他通过数学推导证明,即使p值间存在任意相关性,CCT的尾部概率仍能渐进收敛于标准Cauchy分布,从而为全局检验提供简洁的p值计算方式。陈博还从稳定分布的角度解释了选择Cauchy分布的原因——其具有“独立可加性”的独特性质,使得组合统计量的分布在极端相关性(如完全独立或完全相关)下保持稳健。
在应用部分,陈博以基因组学、纵向数据分析和零膨胀数据为例,展示了CCT的广泛适用性。例如,在GWAS中,相邻SNP因物理位置接近可能存在强相关性,CCT可直接组合各SNP的检验结果,无需预知相关性结构;在纵向数据分析中,CCT通过逐点检验并组合p值,避免了传统函数回归对数据正态性和平滑性的严苛假设。此外,他还提到CCT在模型不确定性和多表型关联研究中的潜力,并指出该论文有近400次的引用量,凸显其学术影响力。
然而,陈博也坦率指出了CCT的局限性:当某个p值为1时,组合统计量会趋于负无穷,导致检验完全失效;若两个检验存在完全负相关(如单侧检验的互补p值),CCT的统计量恒为零,失去判别能力。针对这些问题,他提出了改进思路,包括截断CCT(剔除极端p值)、正向CCT(仅保留正贡献项)以及连续CCT(扩展至函数型p值)。
本期本科生论坛在掌声中圆满落下帷幕。