新冠大流行摧毁了许多低/中等收入国家,导致了广泛的粮食短缺和生活水平急剧下降。为应对这场危机,世界各国政府和人道主义组织已向超过15亿人分发了社会援助。其中,精准确定援助目标是一个主要挑战:在现有数据的情况下,迅速确定哪些人有最大的需求仍然是一项艰巨的任务。为此,加州大学伯克利分校Joshua E. Blumenstock等人开发、实施和评估了一种基于机器学习算法和来自卫星/移动电话网络的非传统“大数据”的针对性社会援助的方法。这种方法使用传统的调查数据来训练机器学习模型,然后经过训练的模型可以优先向最贫困的手机用户提供援助。首先,作者从移动网络运营商处获得特定时间段的手机元数据(呼叫详细记录CDR),包括通话信息、短信、移动数据流量使用及移动货币交易等。然后,使用微软开发的LightGBM为匹配的CDR数据集训练梯度增强回归器。通过五重交叉验证对模型进行训练和评估,在每个折叠上独立调整超参数以获得数据集中每个观察结果的样本外准确性估计和贫困预测。作者在所有调查数据上重新训练模型并记录特征重要性,最后使用最终模型为相关时间段内电话网络上的每个用户生成财富预测。图1. 不同救援目标确定机制的福利分析作者通过研究多哥(西非国家)的一个紧急社会援助计划Novissi(在埃维语中意为团结)来评估这种方法,并使用这些算法支付了价值数百万美元的COVID-19救济援助。通过分析比较了不同目标确定制度下的结果,包括排除误差(即真正的穷人被错误地认为没有资格)、总社会福利和公平性衡量。结果表明,相对于多哥政府考虑的地理定位方法,机器学习方法将排除误差减少了4~21%;相对于需要全面社会登记的方法(假设练习,多哥不存在这样的登记),机器学习方法将排除误差增加了9~35%。这些结果突出了新数据源补充传统人道主义援助目标方法的潜力,特别是在传统数据缺失或过时的危机环境中。图2. 针对不同人口群体救援目标确定的公平性Machine learning and phone data can improve targeting of humanitarian aid, Nature 2022. DOI: 10.1038/s41586-022-04484-9