2018年6月7日,斯坦福大学经济学系教授,世界计量经济学会院士洪瀚做客我院第101期seminar,分享了题为“Decision Making and ROC Curves”的工作论文。
文章对数据科学和机器学习中常用来判定算法优劣的ROC曲线进行了研究,挖掘了ROC曲线统计意义上的性质以及对模型选择的含义,并利用一个国家层面关于生育的大型数据作了说明,实证数据包括待生育夫妇详细的生理、心理数据,以及医生给夫妇双方做出的风险预测(是否会产出不健康的孩子)。
理论与实证结果表明,不能简单地依靠ROC曲线评判某个职业(法官、医生等)预测结果的优劣,主要原因在于:(1)个体相比于机器,拥有更多影响最终判断的不可观测信息;(2)个体相比于机器,因为存在不同的价值判断和动机,对真阳性率(true positive rate)和伪阳性率(false positive rate)两类损失有不同的衡量标准,在最终给出判断结果时往往会赋予不同的权重,而ROC曲线对这两类损失赋予的是相同权重。
文章说明了理论计量与应用计量研究的必要性,并揭示了数据科学与机器学习当前在研究人的行为方面存在的不足。或许我们可以结合两个学科的优点,利用数据揭示法官、医生的价值判断与效用函数,或者根据不同的损失权重作出调整后的ROC曲线并在合适的领域为算法优劣作相应判断。