随机对照试验

也可从以下网址获得: 西班牙人
同义词:
随机对照试验、临床试验、随机对照试验、随机影响评价

随机对照试验(RCT)或随机影响评估是一种影响评估类型,使用随机访问社会计划作为限制偏差和生成内部有效影响评估的手段。

一项随机对照试验将接受治疗(或服务或药片)的患者随机分为治疗组和未接受治疗的对照组。然后比较两组的结果;这个比较给了我们这个程序的影响。随机对照试验并不一定需要“无治疗”的对照——随机对照可以很容易地用于比较同一项目的不同版本,或试图解决同一问题的不同项目。

通过这种方式,控制模拟了反事实。反事实定义为,如果该计划没有实施,同一个人在同一时间会发生什么。从定义上讲,它是不可能观察到的——它是另一个宇宙!rct通过创建一个可以模仿它的组来工作。

很多时候,评估比较的是不同的小组和接受项目的小组。例如:如果我们比较接受小额信贷的妇女和不接受小额信贷的妇女的结果,可能是选择不接受小额信贷的妇女在重要方面的不同会影响结果。例如,不接受小额信贷的妇女可能积极性较低,或对金融产品了解较少。

使用随机化方法意味着首先由项目实施者确定目标人群,然后在该人群中随机化项目访问。

与随机化个人不同,随机化可以在集群层面进行,如村庄、学校或诊所。这些被称为群集随机对照试验。

在比个体更大的水平上随机化有两个主要原因。首先,它可以解决污染问题:接受治疗的个体与对照组中的个体混合聊天,并可能“分享”治疗。这将“污染”我们的影响,我们的对照组将不再是一个好的比较。村一级的随机化可以最大限度地降低发生这种情况的风险。第二,我们可能希望在干预实际实施的水平上随机分组:例如,为学校提供电气化的干预。从逻辑上讲,对学龄儿童进行随机供电是不切实际的——如果不是不可能的话。

当在集群水平进行随机化时,随机化的单位是我们随机展开程序的单位;即集群(在上面的例子中,是一个学校)。分析的单位,被定义为我们收集数据和比较结果的单位,通常是个体的——例如,单个学生的考试成绩。当我们计算所需的样本量时,这种区别将变得很重要。除其他外,样本大小受聚类内相关性(ICC)的影响,ICC是指聚类内个体的相似或不同程度。ICC将确定每个集群有多少个人,以及需要抽样的集群有多少。

简单的例子

考虑这个假设的例子:一个非政府组织,IPADS 4(I4A)计划向发展中国家的低收入儿童分发iPad。i4A希望评估iPad对儿童教育、健康和未来收入水平的影响。他们很可能永远不会有足够的iPad覆盖所有“应得”一台的孩子。RCT将随机分配给表示感兴趣的儿童、附近的儿童或政府认定为“最需要帮助”的儿童,而不是特别分配给他们。

如果他们在个人层面上随机分组,他们会把所有符合条件的孩子的名字放进碗里,或者放在电脑上的列表里,然后进行抽奖。有些孩子会得到一台iPad。有些人不会。如果他们在学校层面进行随机分组,他们会对学校名称进行随机分组,一些学校会收到iPad。在分阶段/管道设计中,如果研究发现最初没有收到iPad的个人或学校有效且资金可用,他们将被安排排队接受iPad。

除了这个简化的示例之外,RCT方法还可以适用于各种不同的环境。

与所有人体受试者研究一样,RCT也要接受严格的伦理审查,以确保在研究过程中没有人体受试者受到伤害。

随机对照试验的步骤

  1. 可选的前奏是需求评估,它可以提供关于上下文及其约束的信息。例如:一项需求评估可以告诉我们拉贾斯坦邦农村有多少儿童接受了全部免疫课程。它可以引导我们明确一个假设,或关键的评估问题。
  2. 一个程序理论已开发(或者,逻辑模型)。该计划理论描述了该计划,揭示了其影响的途径,并阐明了可能阻碍计划成功的所有风险和假设。在现阶段,考虑在这一过程的每一步可以收集的指标也是有益的。
  3. 对整个目标样本进行基线调查。收集相关指标的数据。
  4. 样本被随机分成不同的组。随机化可以用Excel或Stata这样的软件来完成。为了确保随机化“成功”,检查它们在基线指标和可能重要的背景变量方面是否相等:它们在统计上应该是相同的——也就是说,相同的平均收入、相同的平均健康水平,等等。
  5. 该方案或干预措施在治疗组实施。
  6. 在计划实施期间,最好监控计划的实施情况。这些数据有三个好处。首先,它成为一种监控类型,有利于实施组织的运作和效率。其次,它提供了中间指标,使评估者能够打开影响的“黑盒子”(并遵循变化理论)。换句话说,这些中间指标让我们能够回答为什么一个程序会有这样的效果。第三,也是最重要的是,有必要监测干预是否被充分实施到治疗组,而对照组没有受到污染(通过其他方式接受干预)。
  7. 在该计划的实施之后,并且根据评估的背景(例如,一些指标很快回复,其他指标慢慢地),有一个终端或随访的调查。理想情况下,此调查将与基线调查分享许多问题和特征。
  8. 然后比较治疗组和对照组的结果,得出影响估计。将结果报告给执行伙伴。

例子

RCT方法足够灵活,能够适应各种环境和部门。它可用于教育、卫生、环境等领域。只要有一点想象力,随机化就可以适应许多不同的情况。下文将讨论制约因素和RCT不能做的事情。现在,这里有一个RCT可以做的例子的小画廊。

简单(一次治疗,一次对照)

印度大型小额信贷机构斯潘达纳(Spandana)阿布杜勒·拉蒂夫·贾米尔贫困行动实验室(J-PAL)在一项小额信贷研究中,确定了印度海得拉巴104个低收入社区,这些社区是开设分支机构的潜在地点。在开设分支机构之前,2005年随机选择了52个社区开设办事处——这就是治疗组。剩下的52个社区仍然处于“控制”状态(在接下来的几年里,他们将获得一个办公室)。在治疗区引入小额供资15-18个月后,对住户进行了访谈。

视图示例

多个治疗/ !

随机对照试验可以研究相互对抗的多种治疗,或者相互对抗的多种治疗和一个对照组。

在印度比哈尔邦和拉贾斯坦邦进行的一项研究,研究了几种解决儿童读写能力低下的方法。一项干预措施侧重于为母亲提供扫盲班,假设受教育程度更高的母亲在帮助家里的孩子方面会更有效。第二项干预措施是向母亲提供关于家庭活动的指导,这可以丰富她们的孩子在家里的学习环境。第三种干预结合了这两种方法:母亲接受母亲扫盲班和家庭活动指南。而对照组则没有接受这些服务。

视图示例

旋转

印度的补救措施措施使用旋转设计。旋转设计是指两组,一个组是治疗的情况,并且一个是控制 - 然后,那些角色开关,具有先前处理的变得控制和先前的控制变得对待。在实践中,非政府组织Pratham确定了孟买的77所学校,在Vadodara举行了124所学校。Pratham的干预是一个补救导师(称为“Balsakhi”,或“儿童朋友”),他将与15-20名落后于成绩的学生会面。

在2001年,一半的学校为三年级配备了一名教师,另一半为四年级配备了一名教师。2002年,这些学校为以前未经处理的年级聘请了一位家庭教师。这样,通过比较接受三年级辅导的学校的三年级学生和接受四年级辅导的学校的三年级学生,就可以确定治疗的影响。

视图示例

分阶段/管道

除去身上的虫的世界

通常,预算限制禁止全面推出一个项目。因此,只要简单地通过抽签选择将首先获得服务的地区,就可以利用这些交错推出的服务进行随机影响评估。

J-PAL的驱虫研究采用随机相位法。1998年至2001年,非政府组织“国际儿童支持非洲”在肯尼亚西部的75所学校开展了为期三年的大规模驱虫活动。这75所学校进行了抽签,其中25所学校在1998年、25所在1999年和其余25所在2001年进行了驱虫。这样,1998年,50所非变形学校作为25所变形学校的对照组。

视图示例

鼓励

在许多情况下,拒绝为控制组提供服务在政治上、伦理上或行政上是站不住脚的。在某些情况下,可以使用一种鼓励设计——随机选择的个人将收到一份促销脚本或广告,提醒他们这项已经可用的服务。在这些情况下,控制组个人仍然可以访问相同的服务,但是他们不会收到相同的使用提醒。出于同样的原因,接受治疗的个人仍然可以拒绝服务(就像大多数干预措施一样)。

摩洛哥丹吉尔的J-PAL学习与当地公用事业公司合作 - Amendis - 已经分发了饮用水(虽然占用小于100%)。该计划正在提供有补贴的无息贷款来安装水连接。Amendis为所有符合条件的家庭提供了这笔贷款;但是,对于评估,这些家庭的随机子集接受了门到门的意识运动,并提供了填写申请的援助。这一促销活动是推动所选户(治疗)的“鼓励”,比那些没有收到促销的家庭更频繁地注册贷款(控制)。通过这种方式,研究人员能够确定新的Amendis水合与家庭的影响。

最后,因为“鼓励”组(即治疗组)比“不鼓励”组(即对照组)的水连接率更高,这两组可以进行比较。由于鼓励是随机分配的,任何结果的差异都可以归因于接水率的差异。

视图示例

泡泡中的随机化

有时随机化可能发生在资格的“泡沫”内。例如,J-PAL在南非的一项研究与一家匿名小额信贷机构合作,确定了787名被拒绝的贷款申请人,他们被该机构视为“具有潜在信誉”。(根据银行的正常申请流程,申请人要么自动获得批准,要么被拒绝。)在787个样本中,这个“泡沫”,随机选择被拒绝申请人的子集,由贷款机构的一名财务官进行“第二次检查”。这些官员不需要批准这些个人的贷款,但鼓励他们这样做。(因此,我们可以看到,在这种情况下,“接管”与财务官员批准贷款申请人有关。)

视图示例

根据任务和选项映射方法

随机对照试验与其他影响评价方法共享一些相同的任务和选择。例如,根据定义,它们必须指定关键评价问题. 这些问题可能是这样的:驱虫药会导致上学人数增加吗?它们是否也能改善教育效果?获得小额融资是否会带来更多的商业投资?铁强化盐是降低农村人口贫血率的有效方法吗?

此外,数据收集和数据分析是RCT方法的组成部分。深刻理解样本关键是:谁是目标人群?所选样本是否代表较大的人群?在程序访问的随机化之后,治疗组和对照组是否在重要指标上具有可比性?深思指标同样重要的是:例如,如何衡量妇女赋权?认知能力?金融知识?如何收集这些指标的数据?

最后,鉴于建立因果关系的重要性,强调因果关系的作用是有用的对照组作为反事实的

关于选择这种方法的建议

重要的是要记住,尽管随机对照试验可以是在某些情况下衡量影响的一种严格方法,但它们只是更广泛的评估工具的一部分。也就是说,它们可以是任何方法组合的有用补充,但它们不可能回答所有问题。在本节中,我们将描述一些会阻止求值器选择RCT方法的绑定约束。

绑定约束:样本大小

任何定量影响评估(不仅仅是RCT)的主要制约因素之一是样本量。在随机对照试验中,我们关注两个维度的样本量:分析单位和随机化单位。分析单位和随机化单位在确定统计显著性和统计功效方面都是不可或缺的。

统计学意义是指我们观察到的结果的概率不仅仅是基于机会的。文献状态的惯例,其显着性水平高于90% - 优选为95% - 足够。这意味着,5%或10%的时间,我们观察的结果是偶然的。

相反,统计功率指的是在发生撞击时检测到撞击的概率。反之,当影响发生时,我们错过它的可能性有多大(从而产生“假阴性”)?有许多因素决定统计能力:样本量、最小可检测的效应量(即检验必须有多敏感)、结果变量的潜在方差、治疗和控制的比例,以及(如果是一组随机对照试验)组内相关性。按照惯例,80%的能量就足够了。

有一种观点认为,对于低水平的权力,最好不要进行影响评估——否则就会浪费资源,而这些资源本可以更好地用于其他地方(例如,进行良好的过程评估)。

绑定约束:回顾性与前瞻性

根据设计,RCT无法确定当前现有项目的影响,也就是说,已经启动但偶然没有随机提供服务的项目的影响。(事实上,大多数计划都不是随机实施的——值得注意的例外是,根据印度第73条修正案,墨西哥对妇女和种姓少数群体的进步和保留意见。)鉴于随机化发生在实施之时,随机化是RCT方法的一个组成部分,因此只能事先计划,而不能事后计划。因此,对于现有计划,RCT只能应用于以下两种情况之一:将计划推广到新的领域,增加计划(例如新产品)。

使用此方法时的建议

即使是设计最好的RCT,在实施过程中也可能出现许多问题。因此,重要的是要做好准备,包括缓解或控制各种风险的计划。

织缩率

使用率有时可能低于预期,这可能会对您的效果大小产生影响(以及随后的统计能力)。值得注意的是,张紧度和功率之间的关系是指数关系:效应大小下降50%需要样本大小增加四倍才能达到相同的功率。

出于这个原因,建议充分预测 - 并且如果有的话,低估了计划的占用率。选择保守派,甚至悲观,估计这可能会奖励你的较高电源。

不符合

另一个可能影响随机对照试验评估的问题是项目参与者不遵守。也就是说,虽然个人可能被分配到治疗或控制,但这些分配很少被要求或控制。考虑一个小额信贷项目,它在随机选择的“治疗”社区开设分行,而不在“控制”社区开设分行。生活在后者的个人可能只需前往“治疗”社区,以便在小额信贷分支机构开设一个账户。在这种情况下,控制组不再是真正的反事实。

因此,如果个体能够自行选择分组,那么不服从就会威胁到随机化的完整性。虽然不遵从性永远无法完全消除,但它可以被最小化。一种方法是选择一个足够大的随机单位,使两组不太可能混合。例如,在小额信贷的例子中,如果“治疗”和“控制”的社区也相距相当远,我们可能会认为不遵守的情况仍然很低。

然而,请注意,当对照组个体接受该方案,而治疗个体不接受该方案时,这类似于鼓励设计。

消耗

当你的部分样本不再用于后续工作时,例如,因为它们已经移走了,就会发生磨损。如果人员流失是由治疗组和对照组的统计差异造成的,我们称之为“差异人员流失”。这可能特别令人担忧,因为它本质上使你的样本非随机化,因为人们是在一组或另一组中自我选择的。需要注意的是,虽然损耗率看起来是一样的,但如果人们离开治疗组或对照组的原因与治疗有关,则损耗率仍可能发生差异。

在小额信贷的例子中,如果治疗社区的一些家庭获得贷款,发展他们的生意,变得足够富有,离开我们的样本社区,就可能发生差异磨损。如果是这样的话,我们就不能把他们包括在我们的分析中,因此我们剩下的“实验组”看起来就会比实际情况更穷一点(因为所有的富裕家庭都搬走了!)因此,对家庭进行跟踪是非常重要的,特别是在差异减员的情况下。

当从治疗或对照组出现的原因发生磨损时发生非微分磨损:人们可能会移开,死亡或以其他方式删除我们的样本,并且与他们是治疗或控制无关.在这种情况下,我们只会担心非差分磨损侵蚀我们的样本大小,使得统计显着性或功率裁剪问题。

进行基线调查

理论上,如果随机化已经成功实施,一个终点调查就足以确定一个内部有效的影响估计。然而,基线调查除了提供随机化产生平衡治疗和对照组的经验保证外,还提供了增加权力的额外好处。一般来说,更频繁的数据收集(如基线、中线和终点线)可以在更小的样本量下给我们同样的能力。此外,基线结果允许我们测量异质效应(即亚组分析),当组由可能随时间变化的变量定义时。例如,它允许我们衡量教育创新对基线分数较低的孩子的测试分数的影响。没有基线,我们就无法确定这些孩子是谁。

比较多种治疗方法

如果我们想检测一个程序的两个变体之间的差异,那么我们将需要更大的能力——以及更大的样本量。如果我们只是想比较有一个程序和没有一个程序,那么较小的功率(因此相对较小的样本量)就足够了。

资源

指南

Duflo, E., Glennerster, R., & Kremer, M.(2007)。在发展经济学研究中使用随机化:一个工具箱。发展经济学手册,4,3895-3962。

培训班

阿卜杜勒·拉提夫·贾米尔贫困行动实验室(J-PAL)提供一周的时间执行教育课程遍及世界各地,贯穿全年。本课程探讨影响评估,着重于何时及如何使用随机影响评估。这门课的免费存档版本可以在麻省理工学院的公开课程网站上找到。

常见问题解答(常见问题)

1.随机对照试验是一种新的评估方法吗?

2.如果随机化没有产生相同的组,你该怎么办?

特别感谢本页的贡献者
乘务员
乘务员
审核人
首席执行官,更好的评估。
墨尔本。

评论

匿名者的照片
斯蒂芬·伊卡马斯

我计划实施一项RCT评估,以评估6至23个月龄儿童群体中发育迟缓预防的影响。该RCT将在负责营养恢复和治疗的健康中心举行。所有儿童都将接受治疗,我计划创建3组儿童:第1组:有高风险跌入发育迟缓类别或患有发育迟缓的儿童;第二组:低风险儿童属于发育不良类别,我称他们为发育不良风险儿童;第三组:健康儿童,仅为防止发育迟缓而接受治疗。本评估的目的是测量发育迟缓预防和治疗的影响。

您是否有文件可以与我共享,以编制本评估的职权范围和协议?任何文件或建议都将不胜感激。

当做

添加新注释

登录登录并作为BetterEvaluation成员进行评论,或者简单地填写下面的字段。