近日,Nature上发表了一个评论,表明在Science和Nature杂志上,只有57-67%的文章是可以重复的,面对这个难题,作者提出了一些解决的方法。
2018年,我们踏上了评估巴西生物医学研究论文可复制性的旅程。因此,60多个实验室开始合作,重复20年来巴西出版物中的60项实验。我们随机选择了使用三种常见实验室技术的实验:细胞存活率的MTT检测、用于测量特定信使RNA的RT-PCR和用于评估啮齿动物焦虑的升高迷宫法。
每个实验将在三个实验室重复,每个实验室都根据原始文章的方法开发了重复方法。制定、审查和预先注册这些步骤的过程需要协调团队和进行复制的实验室之间长达数月的沟通。我们围绕正负控制的含义以及定义复制成功的不同指标进行了激烈的争论。我们还花了很多时间从事普通的任务,例如研究不同品牌的博洛尼亚香肠的营养成分,以更好地模仿在一次实验中喂养老鼠的自助餐厅饮食。
这些只是我们作为巴西可复制性倡议协调员面临的一些障碍:由于新冠病毒大流行和巴西货币(真实货币)急剧贬值,实验室也大规模关闭。因为这一切,实验开始得很慢,该项目现在定于2022年底完成。
尽管如此,我们已经得出了适用于巴西科学之外的结论。作为一个广泛的解决方案,更严格的标准和更好的方法描述是重要的,但对重现性来说不够,而且可能不是对每一篇论文都可行。为了解决这些问题,对科学论文的期望必须改变。
生命科学的研究文章比以往任何时候都发展更快。20年来,高影响力期刊的数据量翻了一番,人们越来越期待基础科学论文包含结果如何转化为临床应用的证据。因此,Nature等期刊上的文章最终代表了几个人多年的工作。
尽管如此,这并不能保证可复制性。一个叫做癌症生物学的重复性项目迄今为止只复制了17篇被高引用的文章中的5篇的主要发现,而在Science和Nature杂志上复制21篇社会科学文章的成功率在57 – 67%之间。
为了改善这种情况,已经进行了许多工作。拟议措施包括增加样本规模、预先注册协议和使用更严格的统计分析。我们确实认为,就可复制性而言,这些努力将得到回报。但如果发现科学中的每篇论文都采用这种心态,一篇典型的高影响力文章可能需要整整十年的工作,以及巨大的预算。这让我们想到了其他更有效的方法来获得可靠的科学。
对实验室科学中的一流文章,通常有三个主要期望:
第二,通过使用不同方法的进一步实验来确认它们代表了鲁棒现象;
事实上,试图在一篇五页的论文中满足所有三个期望,可能会导致其中任何一个都不能很好地实现。在同一份出版物中强制进行探索性和验证性的研究,可能会扼杀前者或腐蚀后者,从而破坏两者。为了确认最初的、令人兴奋的观察结果而施加的压力可能会使后续的数据和分析产生偏差,特别是在进一步的实验中需要某些结果才能让论文被接受的情况下。许多研究人员不会对他们最初的观察结果持怀疑态度,相反,他们自然会不信任或拒绝进一步反驳他们的假设并危及发表的数据。
此外,要求在一篇文章中进行大量实验可能会将工作量转移到许多脆弱的实验上,而不是一些有力的实验上。研究表明,随着期刊影响的增长,统计能力和单个实验的报告质量都没有提高。来自许多实验的数据量和种类可能会压倒审稿人审查证据的能力。
最后,由于研究小组自己工作不可避免地改变方法、模型或条件的限制,大多数文章最终都根据受限数据得出结论,而没有评估可推广性。因此,默认情况下,单个研究小组的文章应被视为初步文章。如果期望每份出版物的结果在其他环境、模型或人群中都成立,那么可复制性危机似乎是不可避免的。与其要求每位作者进行价值十年的确认性实验,不如通过其他机制来确定结论的有效性,不过这也许超出了论文的范围。
还有什么其他方法来评估调查结果是否足够可靠?一种选择是利用不同研究小组的研究结果综合已发表的文献。另一个方法是组织确认性实验,这些实验专门用于评估鲁棒性和推广性。理想情况下,这些将结合不同实验室的多种方法和实验模型。小组之间的协调可以标准化数据收集,并保证获得结果,从而促进合成并消除出版偏见。
在科学的各个领域建立了不同类型的合作。几十年来,制药行业一直在管理多中心临床试验。从事遗传流行病学工作的财团汇集了来自不同人群的样本,以提高统计能力。
这些努力在成本和劳动力方面成本都很高,不能对每一项公布的调查结果进行。尽管如此,它们是确认关键现象的更有效方式。
其他作者认为,产生初步结果的探索性研究应与评估这些结果的确认性项目更明确地分开,作为改善过程两端的一种方式。探索性和确认性工作之间的独立性可以让科学家有更大的自由来探索假设,同时在测试时坚持严格性并防止偏见。此外,每种方法都需要一套不同的能力,应该通过不同的指标进行评估。
如果编辑政策减少对新实验的要求,避免要求提供临床潜力的证据,基础探索科学将有所帮助。只要实验和分析是公正的,探索也可以从发布范围有限的孤立发现中受益。这可以帮助审查,减少偏见和加快传播,同时减少通过偷工减料,或描述失败的实验,来讲述连贯的故事。
一个更好的机制可能是建立由机构或资助者驱动的正式系统来管理合作项目。这种合作已经在特定领域存在,如美国国家老龄问题研究所、美国国防高级研究项目局(DARPA)和德国联邦教育和研究部。尽管如此,它们仍有空间变得更加广泛,也许与赠款申请或同行评审一样成为生物医学科学的一部分。
虽然我们可以让普通论文更加严谨,但过分强调单个论文及其可重复性不应影响我们得出合理结论的其他方法。与其期望每一篇论文都能建立可靠的现象,倒不如改进对初步发现的系统确认更为可行。
要做到这一点,生物医学界需要确信,一些资源应该转用于调查较少的大型项目。资助者和机构必须更积极主动地协调科学工作者,以选择和解决关键研究问题,而不是在实验室竞争之间分散资源。这涉及建立激励制度,在资金、职业发展和信贷方面,以鼓励研究人员在大型项目中承担不那么自主的角色。科学协会和期刊也可以在确定特定研究领域的哪些发现被认为对复制至关重要方面发挥作用,这是一个艰难的决定,需要科学界的广泛投入。
将可复制性的负担从单个研究人员转移到有组织的社区最终可以提高被视为科学事实的标准,也可以对科学的公共传播产生有益的影响。实现这一切的理想方式仍然是一个悬而未决的问题。但我们至少可以同意,它比一篇论文所能容纳的要大。
文章链接:https://doi.org/10.1038/d41586-021-02486-7
原创文章,作者:Gloria,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/11/e4bacd4aa0/