西湖大學(xué)用AI科學(xué)家,兩周完成了人類三年的科研量。


這個(gè)科學(xué)家,是一個(gè)名叫DeepScientist的AI系統(tǒng),自己搗鼓出了5000多個(gè)科學(xué)想法,動(dòng)手驗(yàn)證了其中1100個(gè),最后在三個(gè)前沿AI任務(wù)上,把人類科學(xué)家辛辛苦苦創(chuàng)造的SOTA紀(jì)錄給刷新了。
西湖大學(xué)文本智能實(shí)驗(yàn)室(WestlakeNLP)發(fā)了篇論文,把這個(gè)能搞自主探索的AI科學(xué)家介紹給了全世界。

AI搞科研的歷史
AI搞科研的想法由來已久,但一路走來其實(shí)挺不容易的。
最早的那些系統(tǒng),更像是工程師的輔助工具,在已經(jīng)劃好的圈圈里干活。
比如有些AI專門用來復(fù)現(xiàn)別人的論文,像PaperBench;有些是解決機(jī)器學(xué)習(xí)工程里的早期問題,像Agent Laboratory。還有AlphaTensor這種,靠海量的試錯(cuò)來優(yōu)化代碼性能。它們都很厲害,但都在一個(gè)既定的科學(xué)范式里做優(yōu)化,從來沒想過去質(zhì)疑這個(gè)范式本身對(duì)不對(duì)。
后來,又誕生了各種科學(xué)家專用的AI工具。
CycleResearcher幫你寫論文,DeepReview幫你審稿,co-scientists幫你頭腦風(fēng)暴產(chǎn)生假設(shè)。但這些工具都只解決科研流程里一小塊孤立的問題。從失敗中學(xué)習(xí)、調(diào)整方向這種最關(guān)鍵的活兒,還得人來干。
在這些專用工具的基礎(chǔ)上,有人開始琢磨,能不能把整個(gè)流程串起來,搞一個(gè)全自動(dòng)的、端到端的AI科學(xué)家。
開創(chuàng)性的工作,比如AI Scientist系統(tǒng),確實(shí)證明了AI能跑通整個(gè)研究循環(huán),也能發(fā)現(xiàn)點(diǎn)新東西。但它們有個(gè)普遍的問題,就是探索策略很迷茫,沒有一個(gè)明確的、扎根于領(lǐng)域重大挑戰(zhàn)的科學(xué)目標(biāo)。它們可能會(huì)發(fā)現(xiàn)一些東西,但這些發(fā)現(xiàn)看起來沒啥實(shí)際的科學(xué)價(jià)值。
DeepScientist的出現(xiàn),顯得如此與眾不同。
它是第一個(gè)能用一個(gè)閉環(huán)、迭代的流程,發(fā)現(xiàn)超越人類最先進(jìn)方法的自動(dòng)化科研系統(tǒng)。它的探索不是瞎蒙,而是有目標(biāo)、有洞察的。它會(huì)先去分析現(xiàn)有的人類SOTA方法到底有什么公認(rèn)的短板,然后通過故障歸因來確保自己提出的新想法既新穎,又有科學(xué)意義。
AI科學(xué)家干活的方式
DeepScientist把科學(xué)發(fā)現(xiàn)這件事,建模成了一個(gè)優(yōu)化問題。
想象一個(gè)巨大無比、什么都可能有的空間,里面包含了所有可能的研究方法。你的目標(biāo),就是在這個(gè)空間里找到那個(gè)最牛的方法,它能帶給你最大的科學(xué)價(jià)值。這個(gè)價(jià)值由一個(gè)黑盒函數(shù)決定。
問題是,在前沿科學(xué)領(lǐng)域,驗(yàn)證任何一個(gè)想法的成本都高得嚇人。你每試一個(gè)想法,就相當(dāng)于跑一個(gè)完整的研究周期,寫代碼、做實(shí)驗(yàn)、分析結(jié)果,動(dòng)不動(dòng)就要消耗掉海量的計(jì)算資源。比如在前沿大語言模型領(lǐng)域,評(píng)估一次可能就要消耗10的16次方FLOPs的算力。這種情況下,想靠暴力搜索或者隨機(jī)亂試,是不可能的。
DeepScientist想了個(gè)聰明的辦法,它設(shè)計(jì)了一個(gè)分層的、三階段的探索循環(huán)。
