查看: 467|回复: 0

12年博士研究，AI两天爆肝完成！科研效率狂飙3000倍，惊动学术圈 [复制链接]

see122

军衔等级：

少校

注册：2007-10-29 点赞数

13

发表于 2025-6-16 18:35:42 |显示全部楼层

　　新智元报道

　　编辑：桃子

　　【新智元导读】AI两天爆肝12年研究，精准吊打人类！多大、哈佛MIT等17家机构联手放大招，基于GPT-4.1和o3-mini，筛选文献提取数据，效率飙3000倍重塑AI科研工作流。

　　多伦多大学、哈佛MIT等机构联手AI，短短2天内，竟干完了科学家12年的活！

　　研究一出，在全网掀起了巨震。

　　沃顿商学院CS教授Ethan Mollick大受震撼，「AI综述论文体量越来越大，而准确性超越了人类」。

　　17家研究机构同著一篇论文，他们目标直指，借助GPT-4.1和o3-mini自动化系统综述。

　　为此，研究人员设计了otto-SR平台，并在2天内，完成了为期12年的系统综述研究。

　　论文地址：https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1.full.pdf

　　结果显示，otto-SR在所有任务中，比如筛查灵敏度、提取、筛选特异度方面，能够媲美甚至超越人类。

　　在一项具体的测试中，复现并更新一期完整的Cochrane系统综述，包含了12篇为临床指南提供依据的综述。

　　令人惊叹的是，otto-SR识别出的相关研究数量（114篇），是原始综述（64篇）的2倍之多。

　　这套AI工作流，让系统综述速度飙升3000倍。

　　这一速度与传统人工流程相比，堪称革命性突破。

　　otto-SR证实了LLM能以更高准确率，自主实行复杂的科研任务。未来，有望通过快速、可靠的系统综述，为循证医学带来革命性变革。

　　人类免疫学家Derya Unutmaz教授认为，这是一个非常了不起的成就。

　　AI取得如此惊艳的成果，究竟是如何做到的？

　　AI全新工作流：

　　GPT-4.1筛选，o3-mini提取

　　在循证医学领域，系统综述（Systematic Reviews）是科学决策的基石。

　　一般来说，传统的系统综述的完成，往往需要耗费16个月，超10万美金的成本。

　　更重要的是，系统综述的延误，可能导致低效甚至有害疗法长期被使用，对患者来说是一场灾难。

　　全新otto-SR是一套基于大模型的「端到端」创新工作流。

　　如下图1所示，不论是「全自动」，还是「人机协同」，两种综述综述模式均支撑。

　　以下是otto-SR的核心模块：

　　1 文献筛选智能体

　　GPT-4.1作为独立评审员，实行摘要和全文筛选。原始检索获得的文献以RIS格式上传，系统即可高效处理。

　　2 数据提取智能体

　　由o3-mini-high实行数据提取任务，快速从文献中提取关键变量。

　　3 PDF处理

　　通过Gemini 2.0 flash将PDF文件转换为结构化Markdown格式，便于后续分析。

　　摘要+全文筛选，赶超人类

　　在摘要筛选阶段，otto-SR筛选智能体表现优异。

　　其加权灵敏度高达96.6%（区间94.1-100.0%），显著优于Elicit（88.5%）和双人评审组（87.3%）。

　　在特异度方面，双人评审组以95.7%位居榜首，otto-SR筛选智能体（93.9%）紧随其后，优于Elicit（84.2%）。

　　这表明otto-SR在最大化捕获相关文献（真阳性）的能力上远超传统方法，同时保持了较高的筛选准确性。

　　在全文筛选阶段，otto-SR筛选智能体继续保持领先，灵敏度达96.2%（区间92.3-100.0%），而双人评审组的灵敏度显著下降至63.3%。

　　在特异度方面，otto-SR（96.9%）与双人评审组（98.1%）均表现优异，而Elicit因不支撑全文筛选未参与比较。

　　综合表明，otto-SR在保持高特异度（最小化误纳）的同时，能够捕获更多相关研究（真阳性），相较于传统双人评审和商Elicit展现了显著优势。

　　数据提取，刷爆准确率

　　在七项系统综述中，otto-SR数据提取智能体的平均加权准确率高达93.1%（区间91.1-97.0%），显著优于双人评审组（79.7%[69.1-91.0%]）和Elicit（74.8%[58.8-83.1%]）。

　　在otto-SR提取智能体的6.9%误差案例中，事后分析揭示了主要原因：

　　· 0.83%（39/4459）因模型无法获取补充文件或需申请的数据；

　　· 0.67%（30/4459）源于解析错误；

　　· 0.49%（22/4459）属于otto-SR与原编辑均不准确的情况。

　　这些发现为未来的优化提供了明确方向，例如改进对补充文件的处理能力和解析准确性。

　　短短2天，AI爆肝12年工作

　　既然GPT-4.1+o3-mini在性能评估中刷新SOTA，那么在实际挑战任务中，表现又如何呢？

　　为了验证实用价值，编辑对「Cochrane系统综述数据库」的12篇系统综述，共146,276篇文献，进行了复现与更新测试。

　　otto-SR智能工作流

　　otto-SR聚焦每篇综述的主要结局（Primary Outcome），让入选标准更清晰。

　　筛选智能体准确识别了全部64项纳入研究；数据提取智能体按Cochrane原始变量定义提取主要结局数据，程序化剔除了缺失主要结局值、重复研究或无干预-对照组的记录。

　　结果显示，otto-SR错误排除研究的中位数为0篇（IQR 0-0.25）。

　　值得一提的是，在限定原始检索截止日期的分析中，otto-SR意外发现了54篇可能被原综述遗漏的合格研究。

　　人工复核确认其中10篇为假阳性，但9篇可能通过编辑沟通获取相关数据。

　　进一步更新检索至2025年5月8日，otto-SR又发现了14篇新合格研究，其中仅2篇假阳性，1篇可能含相关数据。

　　另外，在营养学综述中，otto-SR发现了5项新增研究。这一发现展示了otto-SR挖掘新证据、优化结论的能力。

　　编辑先容

　　Christian Cao

　　Christian Cao目前是多伦多大学医学院在读博士。

　　目前其研究方向聚焦于开发人工智能模型，致力于预测可避免的住院事件及糖尿病相关并发症。

　　Rohit Arora

　　Rohit Arora目前是哈佛大学生物信息学一年级博士生。

　　他专注于人工智能在科学研究中的应用，研究方向集中于药物发现与蛋白质设计。

　　参考资料：

　　https://x.com/emollick/status/1933704272601911536

　　https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1

　　https://www.reddit.com/r/singularity/comments/1lb6lel/llm_combo_gpt41_o3minihigh_gemini_20_flash/

　　https://x.com/ChristianCao11/status/1933201859470053592

来源：网易

举报本楼

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-6-17 12:27 , Processed in 0.211775 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册