亚洲四虎影院,精品亚洲精品,亚洲性色av

這幾天，來自上海的大模型“獨角獸”階躍星辰的研究員楊磊，在國內外機器學習社區火了，他“硬剛”大廠一項“漏洞百出”的論文，引來數以10萬計的“吃瓜群眾”，更不乏行業大V為他站臺。

AI初創公司，進入大語言模型賽道不過一年多的程序員，這樣的背景，怎么也不像是“哪吒鬧海”的主人公！可恰恰是一份簡單而純粹的，對科研較真的態度，讓業界看到并認可了來自模速空間的實力。

上海大模型“獨角獸”的研究員，為何要“硬剛”大廠論文，還獲得了一片叫好？

資料圖：階躍星辰亮相2025世界人工智能大會

故事的開頭，其實也挺尋常。上個月初，有著多模態“卷王”之稱的階躍星辰的研究員楊磊，被同事“種草”了一篇蘋果團隊發布的視覺推理基準論文。這篇論文發表在公開的論文預印本平臺上，同時也被蘋果投向了國際表征學習大會（ICLR 2026）——這可是AI和深度學習領域的頂級學術會議之一。

都被公認“卷王”了，可見平時節奏有多快。可這項研究吸引楊磊，并讓他心甘情愿“加班”的，恰是它的核心，和自己近期的工作相關。蘋果的論文，本意是展示其最新的AI研究進展。“外行看熱鬧”的話，可以理解為出了套“基準測試”——用一套統一的數據集，也就是考題，來比較不同的AI模型，看誰的表現更好。

“可以理解成，它讓大模型去分析，數據集里哪個地方錯了，很像考試中，老師給‘步驟分’。”楊磊告訴新民晚報記者，“此前，我們也開發了專門的標注工具，產生了一批數據，并有了預研模型，很希望通過第三方平臺來驗證成果。”

可熬了一個周末的通宵來做適配，楊磊的心情只能用倆字來形容：沮喪！

“模型跑出來的點數極其之低，遠低于預期。”他說，蘋果團隊也給出了其測試開源模型以及主流模型的榜單，楊磊所用的經過適配的模型，幾乎要排名墊底了。

哪里出問題了？排除了自身模型的問題后，楊磊仔細分析了論文里給出的代碼，他被震驚了！照理說，這套“基準測試”的運行流程是，給個圖、拋出問題、給出解答、解答里有步驟錯誤，模型需要準確找出這一步——也就是說，參加評測的必須是一個能輸入圖片的VLM（視覺—語言模型）。

可，論文的開源代碼里，輸送的是圖片的路徑地址，而沒有把路徑解析成圖片內容——這就造成模型看不到圖片，只能看到題目和錯誤之處。楊磊向論文作者反饋了這個“低級錯誤”，可得到的反饋卻是：這是一段“偽代碼”。

更令楊磊沒有想到的是，在修復這處bug后，模型的點數更低了……

百思不得其解下，楊磊只能花費更多時間和精力，去分析到底哪兒出了問題。再看了前20道題中，自家模型答錯的題后，結果大吃一驚——里面有6道題明確屬于“參考答案”錯誤，從“參考答案”的錯誤風格來看，很可能是模型自動生成的“參考答案”加上質檢嚴重不足，導致包含大量幻覺。楊磊初步估算了一下，“參考答案”錯誤率可能已經來到了30%。

“原本以為蘋果是大廠，我們也比較信任。誰能想到自己花費了大量時間和精力，發現自己‘被坑了’，對方也很不負責。”楊磊如是說。

他在GitHub（記者注：全球最常用的代碼托管與協作平臺）上，向論文作者反饋，指出其中的錯誤。六天后，作者“姍姍來遲”，簡單回復后，便將反饋的問題標記為“已解決”，可實際上發布的數據并沒有任何改動。

由于論文也被投向了國際表征學習大會，大會的審稿意見中，沒有任何一位審稿人發現“參考答案”的質量問題，也沒人發現論文中的例子存在幻覺和錯誤。

楊磊寫了一份詳細的公開評論，提醒大會審稿人和社區：這個數據集質量堪憂、極易誤導研究方向。“我在這里評論是為了防止有興趣的研究人員重復我經歷的相同循環——看到第一個錯誤檢測任務時的興奮，運行它后的震驚和失望，以及追蹤底層GT問題后的沮喪——從而節省每個人的時間和精力。”他這樣寫道。

欧美精品97,一区二区三区四区日韩,久久精品国产亚洲aⅴ,久久久久久久久久久妇女

上海大模型“獨角獸”的研究員，為何要“硬剛”大廠論文，還獲得了一片叫好？

技術社區更多>>