关于Hart(2013)的撤稿…

在同行评审中,注重细节至关重要

“撤消观察”最近刊登了一个有关最近撤消的故事,作者威廉·哈特(William Hart)于2013年发表在《心理学》上,题为“释放过去的情感:动词的使用会影响情绪和幸福。”去年年初,我读了这篇文章,目的是要求我们的本科生写作去做。 学生被要求对文章进行评论。 我对他们的作业的回应以一篇博客文章结尾,标题为“如何训练本科心理学家成为事后的BS生成器”,其中我讨论了要求学生进行批评性工作的危险,使他们不愿意进行有力的批评。

当我阅读它时,我立即知道有些事情…关闭了。 考虑实验1。结论是要求参与者使用不完美的(“我在走路…”)或完美的(“我在走路…”)方面写下负面体验会极大地影响参与者的情绪,因为–哈特声称–不完美与消极事件的更好记忆有关,从而带来更多消极情绪。 哈特如何“量度”情绪? 通过评估感知任务中的全球关注与本地关注。 据认为,在描述消极经历时,完美的和不完美的Cohen d的“心情”为0.62(表1)。

现在,让我们考虑一下。 即使我们同意存在Hart所寻找的效果,但由于参加者的差异,他们选择的负面经历以及许多其他内在来源,对情绪的影响还是非常嘈杂的人类经验中的噪音。 但是,全局处理与局部处理并不合意。 据说它情绪有关。 某种程度上,在所有这些可变性的存在下,作者设法实现了d> 0.6的效果。 一个人根本不会期望这会奏效,但是这篇论文却提出了这样的主张(另请参阅安德鲁·盖尔曼(Andrew Gelman)在此类研究中对噪声问题的看法;多年来,他一直在关注此类问题。 。

实验3a

但是,我从来没有见过像实验3a那样使信誉受到损害的逻辑。 哈特曾要求参与者对简单的字谜(“正面”体验)或困难/不可能的字谜(“负面”体验)进行解读。 再次注意,参与者对这些刺激会有不同的反应,从而在响应中引入噪音。 实验室中的无字谜字实际上有多“负”?

哈特希望确定这种效应是由记忆介导的,因此他为字谜任务引入了一种记忆量度。 它实际上是对内存的衡量吗? 没有! 他使用词汇决策任务。 在填充测试的上下文中,每个参与者看到四个与字谜任务有关的单词的测试(“ anagram”,“ rearrange”,“ sort”,“ assemble”)和四个与字谜任务无关的单词的测试(“键盘” ,“计算机”,“键”,“空格键”)。 每个参与者的字谜任务记忆的量度是两个条件中每一个条件下四个词汇决策试验之间的差异。

没错: 每种情况下都要进行四次试验

像这样的任务中的RT也会变化-即使是类似的刺激-也会相差数百毫秒。 RT只是嘈杂。 此外,单词本身具有可变的属性(例如,低频单词很难与非单词诱饵区分开来),而且人们与这些单词的联想也将有所不同。 最后,请考虑这是词汇决策任务,而不是记忆任务! 每个条件使用四个试验已经很糟糕了,但是我们必须接受这样的逻辑,即在词法决策任务中每个条件四个试验可以作为记忆的量度。

但是,瞧,哈特发现了他要找的结果(左)。 实际上,对RT的影响是巨大的100毫秒! 考虑到这是某些Stroop效果(取决于响应格式)的顺序,您将理解为什么这简直令人难以置信。 哈特还声称以记忆(即词汇决定时间)为调解人具有显着的调节作用。

这本不应该起作用。 评论者应该立即将此标记为可笑的。 但是他们没有,如果您了解同行评审,您就会知道原因。 同行评审几乎总是在结果提交后进行。 作者没有得到他说的效果? 审查的不正确的黄金法则是,我们不要求别人不要我们不想要的东西,当然我们也不想让人们不信任我们。 因此,我们跳过了此类评论。 他说,实验完成了,他发现了效果,所以……进入“讨论”部分。

这就是为什么我们需要实验完成之前回顾一下方法。

故事的其余部分

阅读完本文后,我立即要求作者提供数据。 一无所获时,我在阿拉巴马大学内将其升级。 经过许多月没有得到任何有用的答复(“我们会尽快回复您!”),我向心理科学学院的史蒂夫·林赛(Steve Lindsay)发送了一份报告,据他的说法,他迅速采取了行动,并亲自要求提供数据。 大学随后告诉他,他们将撤回论文……我们甚至不必说为什么我们首先要提供数据。

过去和现在很有趣的是,哈特和大学之所以要求撤回该书,是因为:一位不愿透露姓名,没有信用的研究生操纵了数据。 鉴于该方法的基本不可行性,这似乎不可思议。 一位不愿透露姓名,没有信用的研究生决定采用完全不应该使用的方法从几次实验中获取数据,并且(没有明显的动机)以某种方式操纵数据,以使其支持上司的理论主张? 对。

这里的基本问题不是结果,而是方法与结果相结合的基本可行性。 据推测,该研究生并没有强迫哈特使用每种条件的四个词汇决策试验来测量记忆。 如果有人声称用豌豆射手在飓风中从500m击中靶心,然后几年后声称以前未提及的助手伪造了靶心,则您有权对他们视而不见。

问题的实质

在我看来,同行评审需要彻底改革。 它是不可靠的,临时的,事后的,缺乏真实的牙齿,令人不安的是,许多科学家选择完全不进行评论,而为其余的评论者做更多的工作。 结果是这类有问题的工作通常会经过审阅者。

最后,我认为我们需要认真研究心理学的文化。 学术游戏的文化-尝试以新颖的方法结合经验丰富的方法,同时尝试增强自己的聪明理论-不利于良好的科学。 Ring(1967)在描述20世纪中叶的实验社会心理学时很好地表达了这个问题:

“今天的实验性社会心理学似乎被价值观所主导,这些价值观暗示着以下口号:“社会心理学应该而且很有趣。” 乐趣不是来自学习,而是来自做事。 巧妙地对异国情调的主题进行巧妙的实验,似乎是成功的保证公式,而成功的公式反过来又被定义为能够实现巡回演出。 有时会给人一种印象,即越来越多的社会心理学家正在玩(主要是为了彼此的利益)“你能顶这个吗?”的游戏。 能够进行最人为设计,最华丽和最喜乐的实验的人在Kudometer上得分最高。 简而言之,当前的许多实验都具有明显的暴露主义风格,而实验者本身似乎常常将恶名与成就等同起来。”(Ring,1967,pp.116-117)

当这种态度与嘈杂的方法,分叉的花园和缺乏自我评价的自我服务相结合时,似乎实验心理学变成了一个具有无限可能性的游乐场,但与事实脱节了。