亚博《科学》: AI能作念科学家吗? 这个问题比你念念象的难修起得多

科学界正在发扬对待一个几年前还像科幻演义的问题：东说念主工智能，究竟有莫得身手自在作念科研？

这不仅仅玄学磋议。跟着AI系统在生物学、化学、物理学领域的证据越来越拉风，从AlphaFold理解卵白质结构到AI接济发现新式抗生素，"AI科学家"的宗旨正在从比方酿成真实的工程主见。但随之而来的问题是：咱们用什么来量度AI是否真的具备科研身手？靠直观昭着不够，靠现存的考试题目，也越来越掣襟肘见。

基准测试的武备竞赛

往日几年，AI评估领域演出了一场奇特的武备竞赛：东说念主类诡计一套测试题，AI很快就考满分，东说念主类再诡计更难的题，如斯轮回。

2024岁首，"东说念主类终末的考试"（Humanity's Last Exam）横空出世，蚁合了来自数学、物理、化学、生物等领域的近3000说念博士级贫瘠，堪称是"AI难以通过的终极进修"。放胆不到一年，多个顶尖模子的得分就从个位数攀升到了30%以上，部分推理增强模子更是冲破了50%的门槛。

2025年底，OpenAI推出了新一代基准测试FrontierScience，特等评估AI在物理、化学和生物学领域的各人级科学推理身手。这套测试分为两个赛说念：一是奥林匹克竞赛级别的结构化题目，二是更濒临真实科研的绽放性量度问题，条目模子不仅仅给出谜底，还必须展示完满的推理经由，并由领域各人进行评估。

与此同期，斯坦福、MIT、牛津等高校也接踵推出了各自的AI科研身手评估框架，笼罩从"能不成复现已发表论文的实践放胆"到"能不成提议全新的可教育假定"等不同档次的身手维度。

{jz:field.toptypename/}

《科学》杂志在报说念这一领域时，征引多位量度东说念主员的判断：现存基准测试大批存在一个根人性短处，即它们大多测试的是"学问提真金不怕火"和"推理重现"身手，而真实的科学量度需要的是在未知领域里提议有价值的新问题，这是一种人大不同的默契身手，现在莫得任何基准能够对其进行令东说念主投降的量化评估。

真实的科研身手，不啻于答对题目

分别"会作念题"和"会作念科研"，是这个领域最中枢也最辣手的挑战。

2026岁首，bioRxiv上发表的一项系统性量度对多个主流AI系统进行了真实科研任务测试，亚博体彩论断颇为露出：这些系统现在尚无法自主开展完满的科学量度，但在特定子任务中确乎能够提供真不二价值。量度列举了AI的几个硬伤，幻觉问题排在首位，GPTZero本年发现ICLR 2026在审论文中存在卓越50处AI幻觉援用，每一处皆没能被三到五名同业评审员识别出来，这一细节令科学界颇为警惕。

更深层的问题在于可叠加性。科学的灵魂是可叠加考据，一个论断要是只可由某一个AI系统在某一次开动中得出，而其他东说念主无法复现，那它就不是科学发现，而是一次飞速输出。麻省理工学院的量度东说念主员在2026岁首发表的评估要领论中相称强调，评价AI科研身手必须引入"自在复现率"这一策划，不然任何漂亮的基准分数皆可能仅仅幻象。

此外还有一个更难量化的维度：科学直观。真实鼓动科学普及的时常不是对已知问题的精准求解，而是对"哪个问题值得问"的判断。这种身手依赖于对通盘这个词量度领域的深度浸润、对失败实践的警告积聚，以及某种难以言说的创造性卓越。现在莫得任何基准测试能够有用量度这少量，致使莫得量度者知说念该怎样为它诡计评估策划。

咱们需要一把新尺子

逆境在于，评估AI科研身抄本人等于一个科学问题，而这个科学问题现在还莫得公认谜底。

一些量度团队正在尝试用"闭环考据"的阵势来替代传统基准，即让AI提议假定，然后在真实实践室中进行物理考据，以实践告捷率来反向评估AI的科研价值。这个地点的最有名案例，是2023年AI系统接济发现的新式抗生素Halicin，这项恶果发表在《当然》，并通过了自在实践室的复现考据。

但这种阵势资本极高，无轨则模化，也无法笼罩纯表面科学领域。

斯坦福HAI的量度东说念主员在2025年度AI指数论述中给出了一个求实的判断：与其试图用单一基准修起"AI能不成作念科学"这个浩瀚问题，不如将问题拆解到具体学科、具体任务类型和具体考据阵势上，分别配置评估秩序。莫得一把尺子能量通盘东西，科学的复杂性注定了AI科研身手的评估也必须是多维度的、动态更新的。

这场磋议本人，能够等于AI能够参与科学的最佳证明，亦然它离真实作念好科学还有多远的最憨厚注脚。

亚博 《科学》: AI能作念科学家吗? 这个问题比你念念象的难修起得多

亚博体彩官方网站入口

亚博《科学》: AI能作念科学家吗? 这个问题比你念念象的难修起得多