基于智能手机的移动性数据在应对大流行中起了重要作用。描述数百万人的流动时,来自Google,Apple和其他公司的位置信息已用于分析与社会隔离的警察的有效性,并探讨不同经济部门受到的影响。但是斯坦福大学和卡内基·梅隆大学研究人员的一项新研究发现,与人口统计学多数相比,包括老年人和非白人美国选民在内的特定人群更不可能被流动性数据捕获。合著者认为,如果使用偏见的流动性数据来分配公共卫生资源,那么这些群体可能受到不成比例的伤害。
Factual,Radar和PlaceIQ等分析提供程序从选择加入的位置共享应用程序获取数据,但很少披露将哪些应用程序输入其数据集,从而使决策者和研究人员无法理解代表谁。(先前的工作显示了智能手机拥有者的社会人口统计学特征和年龄偏见,儿童和老人在手机数据中的代表性经常不足。)黑人,美国原住民和拉丁裔社区的病例和死亡人数高该病毒来自COVID-19,大流行加剧了现有的健康不平等现象。斯坦福大学和卡耐基梅隆大学的研究人员断言,如果某些种族或年龄组在用于决策的数据中不能很好地体现出来,那么就有可能制定出无法帮助那些面临最大风险的政策。
团队检查了由创业公司SafeGraph维护的移动性数据集,该数据集包含来自导航,天气和社交媒体应用的智能手机位置数据,这些数据按兴趣点(例如,学校,饭店,公园,机场和实体店)进行了汇总。大流行发生时,SafeGraph作为COVID-19数据联盟的一部分免费发布了许多数据,因此,该公司的数据已成为大流行研究的“原始数据集”。例如,美国疾病控制与预防中心使用它来识别即将达到能力的卫生系统,并指导该机构的公共卫生沟通策略。加利福尼亚州州长办公室依靠SafeGraph数据来制定COVID-19政策,包括对特定区域和设施的风险测量以及物理疏散措施的实施,
SafeGraph发布了一份有关其数据代表性的报告,但这项新研究的合著者对该公司的方法论持怀疑态度。为了透彻考虑,他们创建了自己的框架,以评估SafeGraph测量地面实况移动性的程度以及其覆盖范围是否随人口变化。
该合著者查看了美国当局记录中的2018年选民投票数据,旨在了解SafeGraph投票地点选民的覆盖范围是否与那些选民的人口统计数据有所不同,这可以表明数据集中是否存在人口统计学偏差。他们使用了由私人投票人文件供应商L2提供的记录,以及北卡罗来纳州国务卿的民意调查信息,得到了595,000名选民的数据集,他们在549个不同的投票地点参加投票。
研究人员的审计结果表明,与65岁以上的非白人选民相比,SafeGraph的数据跟踪流动性数据的能力较差。共同作者解释说:“年龄系数较大,表明65岁以上选民的每增加一个百分点,相对于最佳排名,排名就会下降4个百分点。”类似地,种族系数表明非白人百分比的每增加一个点,与相对于最佳排名的减少一个点有关。这表明,通过SafeGraph流量进行排名可能会对老年人和少数族裔造成不成比例的损害,例如,无法在最需要的地方找到弹出式测试站点。
SafeGraph的出行数据明显存在偏差,可能导致政府无法充分提供口罩之类的医疗资源,而做出的决定不充分的决定是根据公共卫生命令打开或关闭业务类别。在研究过程中进行的一项思想实验中,研究人员发现,严格依赖SafeGraph会将资源分配不足的35%分配给年龄较大和非白人人口的地区,而将总资源分配30%的资源分配给最年轻和最白人的群体。
合著者提出了针对年龄和种族的偏倚校正权重形式的修复方法。他们还呼吁提高SafeGraph和其他数据提供者的透明度,他们说这可能使决策者可以使用有关位置信息源的已知信息并进行相应调整。共同作者写道:“我们发现,种族和年龄人口统计数据的覆盖率明显偏斜,这两者都是与COVID-19相关的死亡率的重要危险因素,”“如果不注意这些盲点,我们就有可能加剧对大流行的卫生保健反应中严重的不平等现象。”