原文出处:/2022/05/14/practical-math-preview-collect-sensitive-survey-responses-privately/ 作者:Jeremy Kun 这是我正在编写的书《程序员实用数学:生产软件中的数学之旅》(链接:/2022/03/16/my-next-book-will-be-practical-math-for-programmers/)中一章的草稿。 提示:当调查对象不相信他们的回答会被保密时,请确定有关敏感问题的汇总统计数据。 解:
在 1960年代后期,大多数堕胎在美国都是非法的。丹尼尔·G·霍维茨(Daniel G. Horvitz )是北卡罗来纳州三角研究所的统计学家,也是社会科学调查设计的负责人,他的任务是估计北卡罗来纳州有多少女性正在接受非法堕胎。目的是让州和联邦政策制定者了解有关堕胎的统计数据,其中许多即使是合法的也没有报告。 阻力很明显。正如霍维茨所说,“一个谨慎的女人不会向陌生人透露她参与了可能被起诉的罪行的事实。” [Abernathy70] 这导致了调查回复中的强烈偏见。类似的问题一直困扰着对各种非法活动的调查,包括吸毒和暴力犯罪。对非法行为的基本统计缺乏认识导致了各种误解,例如不经常寻求堕胎。 霍维茨与生物统计学家詹姆斯·阿伯纳西(James Abernathy)和伯纳德·格林伯格(Bernard Greenberg)合作测试了一种新方法来克服这一障碍,同时又不侵犯受访者的隐私或合理否认非法行为的能力。这种称为随机响应的方法是由斯坦利·华纳(Stanley Warner )于1965年发明的,就早了几年。[Warner65] 华纳的方法与我们在本文中的提示有点不同,但华纳的方法和上面的代码示例都使用了相同的策略,即在调查中添加随机化。 如上面的代码所示,该机制要求受访者从掷硬币开始。如果是正面,他们会如实回答敏感问题。如果是反面,他们会抛第二枚硬币来决定如何回答这个问题 —— 正面的答案是“是”,反面的答案是“否”。自然,抛硬币是隐私的,由受访者控制。因此,如果受访者对问题回答“是”,他们可能会合理地声称他们的“是”是由硬币决定的,从而保护了他们的隐私。下图以图表的形式描述了这个过程。 显示调查对象记录其响应的过程的分支图 描述结果的另一种方式是说每个受访者的答案都是以的概率翻转的单一信息。这是权衡隐私性/准确性的曲线上两个极端之间的一半。第一个极端是“完全诚实”的响应,其中单一信息永远不会翻转并且所有信息都被保留。第二个极端以的概率翻转位,这相当于完全随机地忽略问题并选择您的答案,从而丢失汇总响应中的所有信息。从这个角度来看,可以将汇总调查响应视为数字信号,并且隐私机制会在该信号中添加噪声。 还有待确定如何从这些嘈杂的响应中恢复聚合信号。换句话说,调查员无法知道任何个人的真实答案,但他们可以通过一些额外的工作,通过校正统计偏差来估计有关基础人口的统计数据。这是可能的,因为随机化很容易理解。“是”答案的预期分数可以写成“是”答案的真实分数的函数,因此可以求解真实分数。在这种情况下,随机硬币是公平的,该公式如下(其中代表“概率”)。 所以我们要解的是 我们可以将上面的真实概率替换为我们在调查中回答“是”的部分,结果是的一个估计。该估计是无偏的,但具有额外的方差 —— 超出了从感兴趣的总体中选择有限随机样本引起的通常方差——由随机化机制引入。 通过一些努力,可以计算出估计的方差为 通过限制了估计量远离其预期的可能性的切比雪夫不等式,我们可以制作置信区间并确定所需的样本量。具体来说,估计具有最多的附加误差,概率最多为。这意味着对于的置信度,至少需要个样本。例如,要以90%的置信度()实现误差需要个响应。 霍维茨的随机化机制没有使用硬币翻转。取而代之的是,他们使用了一个装有红球或蓝球的不透明盒子,与测量员在同一个房间的受访者会摇晃它,并通过一个背对测量员的小窗户私下显示随机颜色。统计原理是一样的。霍维茨和他的同事对这些女性进行了调查,了解她们对这种机制的隐私保护的看法。当被问及他们的朋友是否会诚实地回答有关堕胎的直接问题时,超过80%的人要么相信他们的朋友会撒谎,要么不确定。[注:在询问某人是否不诚实时,调查方法中的一个常见技巧是询问他们的朋友是否不诚实。这往往会引起更多的诚实,因为人们不太可能坚持对他人道德诚信的错误看法,而且人们也没有意识到他们对朋友的看法与他们自己的个人行为相关和态度。换句话说,说谎者不承认说谎,但他们认为说谎比实际情况要普遍得多。] 但60%的人认为随机化没有任何技巧,而20%的人不确定并且20%的人认为这是一个诡计。这表明许多人相信霍维茨的随机化机制提供了诚实回答所需的安全保证。 霍维茨的调查取得了巨大的成功,无论是作为一种方法的随机反应还是衡量流产流行率。[Abernathy70]他们估计堕胎率约为每100次受孕22次,具有明显的种族偏见——少数族裔接受堕胎的可能性是白人的两倍。将他们的发现与1955年之前的一项全国性研究(即所谓的 Arden House 估计)进行比较,该研究给出了每年20万至120万例堕胎的范围,霍维茨的团队更准确地估计1955年美国有699,000例堕胎,报告的标准偏差约为6,000,不到1%。在他们研究的1967年,他们估计有829,000人。 由于公众对该主题的兴趣激增,他们的估计在随后的一系列堕胎法和法庭案件中被广泛引用。例如,1970年加州最高法院对巴拉德诉安德森案的意见中引用了这一点,该案涉及未成年人是否需要父母同意才能接受其他合法的堕胎。[Ballard71, Roemer71] 1971年提交给美国最高法院的罗诉韦德案的法庭之友简报中也引用了这一点,该案使大多数美国法律将堕胎定为非法。全国妇女组织等该国主要的妇女权利组织联合提交了一份这样的简报。这一段引用了霍维茨,它写道,[Womens71]
目前尚不清楚作者是如何得到这100万个数字的(霍维茨估计1967年减少了20%),也不清楚他们所说的“无法从统计上验证”是什么意思。这可能是对随机响应技术的误解。无论如何,随机反应在为政治辩论奠定基础方面发挥了至关重要的作用。 尽管霍维茨取得了成功,并且对犯罪、吸毒和其他敏感话题进行了数十年的额外研究,但随机响应机制的应用却很糟糕。在某些情况下,所需的随机化非常复杂,例如在需要连续随机数时。在这些情况下,手动随机化机制过于复杂,受访者无法准确使用。尝试使用软件辅助设备会有所帮助,但也会对受访者产生不信任。请参阅 [Rueda16] 以了解对这些陷阱的更多讨论以及存在哪些软件包来帮助使用随机响应。有关1970年至2010年间使用的各种方法之间的统计差异分析,请参见 [Fox16]。 从拙劣的执行中可以吸取的许多教训中,一个是随机化机制必须考虑参与者的心理以及失败结果的严重性。 参考文献: [Fox16] James Alan Fox, Randomized Response and Related Methods: Surveying Sensitive Data, 2nd, 2016, doi = /10.4135/9781506300122. [Abernathy70] Abernathy, James R. and Greenberg, Bernard G. and Horvitz, Daniel G., Estimates of induced abortion in urban North Carolina, Demography, Vol 7, number 1, 19-29, 1970.02, issn: 0070-3370, doi = 10.2307/2060019, /10.2307/2060019. [Warner65] Stanley L. Warner, Randomized Response: A Survey Technique for Eliminating Evasive Answer Bias, Journal of the American Statistical Association, 309, pages 63--69, American Statistical Association, Taylor & Francis, Ltd., vol60, 1965. [Ballard71] Ballard v. Anderson, California Supreme Court L.A. 29834, 1871, /ca-supreme-court/1826726.html. [Womens71] Motion for Leave to File Brief Amici Curiae on Behalf of Women’s Organizations and Named Women in Support of Appellants in Each Case, and Brief Amici Curiae., Appellate Briefs for the case of Roe v. Wade, WL 128048, 1971, Supreme Court of the United States. [Roemer71] R. Roemer, Abortion law reform and repeal: legislative and judicial developments, Am J Public Health, Vol. 61, number 3, 1971, pages 500-509. [Rueda16] M. Rueda and B. Cobo and A. Arcos and R. Arnab, Chapter 10 - Software for Randomized Response Techniques, Analysis and Protection of Privacy Through Randomized Response Techniques: Qualitative and Quantitative Human Traits, Handbook of Statistics, Elsevier, Vol 34, pages 155-167, 2016, doi = /10.1016/bs.host.2016.01.009. |
|