這幾天,來自上海的大模型“獨角獸”階躍星辰的研究員楊磊,在國內外機器學習社區火了,他“硬剛”大廠一項“漏洞百出”的論文,引來數以10萬計的“吃瓜群眾”,更不乏行業大V為他站臺。
AI初創公司,進入大語言模型賽道不過一年多的程序員,這樣的背景,怎么也不像是“哪吒鬧海”的主人公!可恰恰是一份簡單而純粹的,對科研較真的態度,讓業界看到并認可了來自模速空間的實力。

資料圖:階躍星辰亮相2025世界人工智能大會
故事的開頭,其實也挺尋常。上個月初,有著多模態“卷王”之稱的階躍星辰的研究員楊磊,被同事“種草”了一篇蘋果團隊發布的視覺推理基準論文。這篇論文發表在公開的論文預印本平臺上,同時也被蘋果投向了國際表征學習大會(ICLR 2026)——這可是AI和深度學習領域的頂級學術會議之一。
都被公認“卷王”了,可見平時節奏有多快。可這項研究吸引楊磊,并讓他心甘情愿“加班”的,恰是它的核心,和自己近期的工作相關。蘋果的論文,本意是展示其最新的AI研究進展。“外行看熱鬧”的話,可以理解為出了套“基準測試”——用一套統一的數據集,也就是考題,來比較不同的AI模型,看誰的表現更好。
“可以理解成,它讓大模型去分析,數據集里哪個地方錯了,很像考試中,老師給‘步驟分’。”楊磊告訴新民晚報記者,“此前,我們也開發了專門的標注工具,產生了一批數據,并有了預研模型,很希望通過第三方平臺來驗證成果。”
可熬了一個周末的通宵來做適配,楊磊的心情只能用倆字來形容:沮喪!
“模型跑出來的點數極其之低,遠低于預期。”他說,蘋果團隊也給出了其測試開源模型以及主流模型的榜單,楊磊所用的經過適配的模型,幾乎要排名墊底了。
哪里出問題了?排除了自身模型的問題后,楊磊仔細分析了論文里給出的代碼,他被震驚了!照理說,這套“基準測試”的運行流程是,給個圖、拋出問題、給出解答、解答里有步驟錯誤,模型需要準確找出這一步——也就是說,參加評測的必須是一個能輸入圖片的VLM(視覺—語言模型)。
可,論文的開源代碼里,輸送的是圖片的路徑地址,而沒有把路徑解析成圖片內容——這就造成模型看不到圖片,只能看到題目和錯誤之處。楊磊向論文作者反饋了這個“低級錯誤”,可得到的反饋卻是:這是一段“偽代碼”。
更令楊磊沒有想到的是,在修復這處bug后,模型的點數更低了……
百思不得其解下,楊磊只能花費更多時間和精力,去分析到底哪兒出了問題。再看了前20道題中,自家模型答錯的題后,結果大吃一驚——里面有6道題明確屬于“參考答案”錯誤,從“參考答案”的錯誤風格來看,很可能是模型自動生成的“參考答案”加上質檢嚴重不足,導致包含大量幻覺。楊磊初步估算了一下,“參考答案”錯誤率可能已經來到了30%。
“原本以為蘋果是大廠,我們也比較信任。誰能想到自己花費了大量時間和精力,發現自己‘被坑了’,對方也很不負責。”楊磊如是說。
他在GitHub(記者注:全球最常用的代碼托管與協作平臺)上,向論文作者反饋,指出其中的錯誤。六天后,作者“姍姍來遲”,簡單回復后,便將反饋的問題標記為“已解決”,可實際上發布的數據并沒有任何改動。
由于論文也被投向了國際表征學習大會,大會的審稿意見中,沒有任何一位審稿人發現“參考答案”的質量問題,也沒人發現論文中的例子存在幻覺和錯誤。
楊磊寫了一份詳細的公開評論,提醒大會審稿人和社區:這個數據集質量堪憂、極易誤導研究方向。“我在這里評論是為了防止有興趣的研究人員重復我經歷的相同循環——看到第一個錯誤檢測任務時的興奮,運行它后的震驚和失望,以及追蹤底層GT問題后的沮喪——從而節省每個人的時間和精力。”他這樣寫道。