心理咨询师:心理学研究中的渡渡鸟效应

心理健康 43 0

  心理导读:几十年来,心理治疗领域的研究者们都很清楚,心理治疗实验常常是无法被重复的。我相信通过一个可再现的镜头和解决根本问题的方式来检视渡渡鸟效应,将会改善心理治疗领域的研究现状,不仅仅是治疗实验,而且我们能得到一些让各方都满意的答案,而不用再去老调重弹那些早已让我们疲倦的争论了。    ---www.xinlile.com
 

 

  期刊里有很多关于研究可重复性的文章;博客世界里也充斥着关于可重复性的争论。对研究可靠性的关注不仅局限于心理学,还延伸到了生物医学(Begley & Ionannidis, 2015),政治学(Esarey, Stevenson, & Wilson, 2014),甚至是计算机科学(LeVeque, Mitchell, & Stodden, 2012)

 

  但是,只有心理治疗领域的研究人员用一个象征物来比喻这个研究可重复性的问题:渡渡鸟。

 

  几十年来,心理治疗领域的研究者们都很清楚,心理治疗实验常常是无法被重复的。我相信通过一个可再现的镜头和解决根本问题的方式来检视渡渡鸟效应(不同的心理治疗有同样的效果),将会改善心理治疗领域的研究现状,不仅仅是治疗实验,而且我们能得到一些让各方都满意的答案,而不用再去老调重弹那些早已让我们疲倦的争论了。

 

  这篇文章有两个目标:1、让怀疑论者确信我们的确关心心理治疗研究的可重复性问题;2、提出可以用来修正这一问题的行动措施。(本文为上篇,主要谈论第一个问题。)

 

  是的,这的确是个问题

 

  尽管心理治疗研究取得了大量一致的有用发现,但是我相信大部分的心理治疗研究都无法重复(如果它还没有被重复的话)。渡渡鸟效应就是一个无法重复的例子:任何支持一种疗法优于另一种疗法的重要发现,总是很容易被反驳,或者是结论无效,或者是得出完全相反的结论。

 

  哎,等等,渡渡鸟不是已经灭绝了吗?难道不是大卫(David Tolin)用一个元分析之类的东西把它杀了吗(2010,2014)?

 

  是的,有的元分析发现不同疗法有不同的功效,但是另外的元分析却发现不同疗法间没有差别(Hofmann, Asnaani, Vonk, Sawyer, & Fang, 2012)。所以,元分析本身也无法重复,最后还是导致了这种渡渡鸟状况。

 

  我们可以讨论一下为什么会出现我们想要的结果,因为我们会反复考证元分析方法以及通过这些元分析得出的结论。但是抛开我们的立场,我们都会同意确实有证据表明问题存在。几十年来,心理治疗领域的研究产生了大量的文献,但是这些文献非常含糊,聪明人稍微从不同的角度进行解读,就会得出不同的结论。

 

  也许你并不关心效果比较试实验的不可重复。事实上,如果只是效果比较的实验,我也不会担心,我会预期比较心理治疗各个方面的实验都产生变异的结果,下面会讨论其中缘由。因此,许多研究者都认为研究机制、过程、调节变量和个人咨询要素会更富有成效。

 

  然而,我们有足够的理由相信其它类型的心理治疗研究也同样不可重复。

 

  首先,让我们先有节操地假设心理治疗研究和所有的心理学研究(包括其它领域)一样,都存在可重复性的问题。

 

  第二,心理治疗文献里有大量像渡渡鸟一样无法重复的例子。就我自己曾痴迷于文献回顾的经验来说,缺乏可重复性不是特例而是常规。

 

  例如,我被要求写这篇文章是为了配合另外一篇文章,因为我和我的同事在那篇文章中得出的结论无法重复,主要探讨依恋类型对认知行为疗法和人际互动疗法的功效所起的调节作用(人际心理治疗;Bernecker等,2016)。由于写文章的过程中注意到现存文献很难总结归纳,于是我们对有关人际心理治疗的调节因素的文献做了一个全面回顾。我们发现的一致结论很少,就连经常被引用的结论都与其它的调查研究相矛盾。(Bernecker, Coyne, & Constantino, in preparation).

 

  另一个例子来自于近期的一项关于认知偏差矫正(cognitive bias modification,简称CBM)的元分析(CBM; Cristea, Kok, & Cuijpers, 2015)。尽管我支持使用单因素检验作为应对这一危机的改进措施(见下文),但是元分析完美呈现了CBM的积极结果是受发表偏见和方法论问题的驱动,这表明除非我们改进发表要求和研究方法,不然就算是最严格限制的干预也会有可重复性的问题,正如多成分治疗一样。

 

  如果你依然不相信心理治疗研究的可重复性问题的话,我会这样劝你,同那些怀疑气候变化的人争论时,我也是这样说的:鉴于危险的严重性,不怕一万,就怕万一。我不想在这场赌局中失败,最后以物种灭绝以及变为水下城市而告终,这样的结果同样会出现在科学领域。

 

  如果想要我们的工作成果能够影响实践、培训,乃至政策,那么当我们生成一系列研究的时候,我们应该得出合理可信的结论;我们不应该得出那种经不起风吹的结果。

 

  事实上,如果个人发表的论文足够可靠,我们就可以放心地引用,因为它的结果是“真的”,而不是等着更多的研究来验证同一个问题,这样不是更好?

 

  我们应该做些什么

 

  我相信我们可以做到

 

  心理治疗研究富有成效,但是由于实践与文献中的矛盾,妨碍了这一进程。现在科学界已经认识到可重复性问题这一领域,并且去寻找它的成因,我们有机会做出改变,这将会促发研究对这一问题有所回答。

 

  在已发表的文献中,两种力量的结合导致了偏见的形成:一种力量是选择可变性,一种力量是选择更强的效应。受机构和个人压力的影响,研究过程中,一些低效应的部分在不同程度上被过滤掉了,导致文献中充斥着虚假的肯定。这种研究方式导致了最多的争议,产生了最多的偏见,但是却获得了发表的回报与荣誉,似乎产生了最受“肯定”的结果,却忽视了真正有效应的那部分(见上图)。

 

  总之,在实验室里,文献的状况是可以改进的:

 

  (1)减少有选择性的偏见,也就是说,要保证这些效应不是按照有偏见的导向过滤到文献中去的。

 

  (2)减少可变性。

 

  (3)改变系统。在系统层面,通过改变机构和个人对大效应的特殊偏好的措施,能够使这些目标加快实现。尽管调查者们在某种程度上也是这一系统的受害者,但我们因为对这一系统的维护仍应受到指责,我们有责任永久性地改变这一局面。

 

  1、在分析和报告的时候减少“选择性偏好”

 

  有问题的研究行为(QRPs; John, Loewenstein, & Prelec, 2012)包括在数据收集、分析、报告过程中删去小的和无效的数据这类行为。出版偏好阻止了小的以及无效的结果出现在文献之中。作为个人,我们应该负起责任来抵抗两种类型的“过滤”。

 

  避免有问题的研究行为,增加透明度,并且考虑预登记。

 

  那些需要我们改变的行为在别的地方已经很清楚的被列举了出来。我最喜欢的两篇参考文献是Gelman和Loken(2013)和Simmons,Nelson,Simonsohn(2011)。

 

  简而言之:在实证研究中,不要拐弯抹角,不要让你的数据影响你的研究方法。在探索性研究中,把一切都报告出来,包括不同的分析策略得出的不同结果。

 

  把一切都公布出来。

 

  我们有责任尽力让一切内容都公布出来。从你最喜欢的杂志开始尝试;你可能会很惊奇这些“无效应”居然那么受欢迎,尤其是当你提出可重复性的原因时。如果这样不行,试一下像是 PLoS ONE这样的杂志,他们依据研究方法的可靠性来选文章,而不是依据研究的结果(同样有很高的影响因子!),如果这些办法都不行,那么把你的文章放在网上的公共信息库(Nosek, Spies, & Motyl, 2012),www.jasnh.com,这个网站里就是专门刊登“无效应”的文章的。

 

  对你自己和周边的人进行教育。

 

  我相信绝大多数的科学家们都期望呈现“真实”的研究结果,而不是欺骗性的结果,当我们卷入有问题的研究行为时,是因为没有意识到我们行为后果的严重性(John et al., 2012)。因此,大学老师不应该仅仅保证他们自己避免那些小的问题研究行为,他们同样应该承诺对研究生(包括本科生)实施方法论、统计和伦理课程的培训。许多研究生对可重复性问题只是粗略了解,他们的研究行为会有一些问题,有时候还是在导师的允许之下。如果没有彻底深入的培训,下一代将面临这成为一个永久性问题的风险。

 

  2、减少变异

 

  在实验研究中,聚焦于单因素控制。

 

  多成分干预使临床治疗师可以灵活地对一个病人使用不同剂量的药物(敏感性问题;Stiles, 2009)。这也许对病人有利,但是它同时也消除了效应,让我们无法分辨是哪种治疗成分导致了症状改善。单因素干预研究(或者只改变一个治疗因素)将会极大提高精确性和可重复性。

 

  尽管这些单因素干预方法应该持续被应用,但是在某种意义上,对于不适宜该治疗方式的病人来说,不必严苛;更确切的说,那些在理论上符合的病人可以事先被辨认出来。确实,单因素方法的一个好的方面是,能够灵活地将各因素结合起来以匹配不同病人的独特表现。

 

  将你自己视为高质量培训的操作者,而不是干预因素。

 

  实施有证据支持的训练方法,例如行为示范训练 (Hill & Lent, 2006; Taylor, Russ-Eft, & Chan, 2005)将会增强临床工作者精确重复预定行为的能力。如果我们完全用更具体的材料和练习来训练临床工作者,之后的重复和传播就会变得非常容易。

 

  在实验研究和观察研究中,使用清晰可靠的测量。

 

  我特别钟情这样的观点:测量个体的目标症状或者中介因素而不是总体评估失调或者诊断。这样会减少错误,并且可以澄清通过干预使病人的哪部分症状表现发生了改变。而且这更符合现代的心理疾病概念(Borsboom & Cramer, 2013),也符合临床实践中病人往往更关心某个症状这一特点。

 

  3、改变这个系统

 

  作为研究的消费者和评审,我们是这个系统的一部分诱因,所以我们能够(而且已经开始)改变这些压力,让研究从错误的肯定和有争议的方法中发生转变。

 

  作为审稿人,依据方法而不是结果来“守住大门”

 

  我们在推荐文章发表时,是否不应该依据研究结果或者它有可能夺人眼球,而应是研究方法的可靠性。我们也应该很清楚的告知作者,他们需要报告所有的结果和分析结论,而且他们不会因此受到不利影响(Simmons et al., 2011)。

 

  作为消费者,奖励那些促进可重复性的实践

 

  作为研究的消费者,我们同样有权力。我们应该拒绝引用那些有选择性报告迹象的文章,其它类似“为了得到想要的结果而将数据加倍”的文章,或者是研究方法制造很多噪音的文章。我们应该引用、发布、推送这样的内容:

 

  可重复的,有评论的

 

  方法靠谱,出现多结果或者无效结果

 

  明确采取努力尽量减少干扰的研究,尽管其结果效应较小。

 

  这样,从个人层面上来回报参与这项工作的研究者,并且向杂志证明这些才是我们会引用并因此值得出版的内容。

 

  (作者:Sam Bernecker | 翻译:徐浪 | 来源:心理学空间

抱歉,评论功能暂时关闭!