GPU乞丐從 NeurIPS 2024 看2025年 LLM 題目趨勢
Published:
先說以下純屬我個人能逛到 poster 的部分來評論,因為場地太大、人群恐懼我沒辦法全部 poster 都看到。
可能認識我的人都知道 Neurips 這個會議我對它頗有微詞,但它的時間點與規模依然有它獨特優勢(相對其他 conference ICML, ICLR, COLM? .. ):
- 每年最後一個 AI 會議 - 這讓我們能總覽過去1-2 年的研究趨勢(明年能做、還不能做與明年開始已經太晚的題目)
- 像是今年 D&B oral 的作者去年就找過我聊她今年這篇論文的方向,而我今年也有稍微聊她明年想做的方向
- 全世界最大的 AI 會議 - 最多 industry 的人參與,創造了跨領域想法碰撞的最佳場域
另外定義一下 GPU 乞丐 : 凡是沒有 8張 A100 可以揮霍的都是乞丐
2023 vs 2024 的觀察
2023 年的主要觀察
- 學界與非 frontier lab 對於 LLM 的應用策略仍在摸索中。許多應用依然停留在簡單的場景,但是一旦上線遇到問題還很難解決問題 Reddit : AI Agents: too early, too expensive, too unreliable
- 在不需要重新訓練的條件下,仍有研究空間:如探索 LLM 行為、漏洞 (looking inward, let me speak freely, selection bias)
- 2023 年的小型模型仍有提升潛力,但2024 年透過大量 high quality post training task + model soup, 這差距已經被大型實驗室快速填補起來了 (mix data or merge model?, llama 3.2)
- 開源多模態模型尚未成熟,簡單的 LLaVA 架構已能達到不錯效果(主要靠堆疊數據)
2024 年的疏忽
小模型的天花板
我在 2024 年確實在 LLM 行為漏洞方面發表了一些研究。但我也忽視了小型模型在數學能力上的突破:現在 3B 參數的數學特化模型竟能超越 2023 年十倍大小的模型。甚至 pretrain 的 base model 還超越去年大一個數量級的微調模型 (qwen2.5-math-1.5B MATH score 75.8, arithmetic without algorithm)。我認為這塊,我忽視了去年數學資料的骯髒程度、也高估了LLM 在解數學任務的難度。
Think step by step is computation
其中還有我認為忽視了step by step reasoning 的本質意義:將生成新的字當作是搜尋的步驟,並且把蒙地卡羅擴散搜尋的動作攤平後則可以看成是一系列扁平化的探索操作的話,本質上這就是 think step by step 在做的事 。
2024 年 NeurIPS 觀察到的趨勢
上升趨勢
- Academic 研究方向的轉移:
- 過去在 pretrain scaling 受限於高工程門檻與運算成本,今年除了oral 的那篇 not all token is all you need, 幾乎很少說 pretraining 相關的論文 - 體感
- Test time scaling 提供了新機會(可控制在 5B 參數內),並且我認為是GPU乞丐還可以做的題目 - test time is more effective scaling, incentivize, don’t teach
- Agent 研究的進展:
- Language agent 有重大突破(部分歸功於 LLM 基礎能力提升) - CS 194/294-196
- 但距離真正的 agent-native 效果仍有距離,目前更像是優化後的 workflow
- 資料品質與稀缺性:
- 評測資料氾濫但質量下降
- 評測資料幾乎沒有附上任何訓練資料
- 我認為很多 benchmark 沒有從使用 benchmark 的角度思考(評測環境設定難度、評測資料數量、數字的意義)- spider2-v
式微趨勢
- 預訓練研究減少:
- 預訓練幾乎無人問津
- 微調討論降溫
- 轉向 TTA(test time adaptation): 也就是模型在 inference 模式時根據資料的輸入調整自己去適應 input - ARC-AGI test time training
- Prompting 方法演進:
- 純 prompting 改善 Chain of thought 的方法減少
- 轉向結合 training 與 external guidance 提升下游能力
2025 年研究方向展望
如果我在 2025 年想做 LLM 研究且跟我一樣房間裡一樣只有一張 3090 你可以:
- Reward Modeling 研究方向:
- 如何訓練更好的 scalar-based reward model
- 探索 reward model 行為一致性問題
- 原因:訓練成本相對較低,模型穩定性高
- 特別是多模態 reward model(如 audio-based)仍有很大發展空間
- Agent-First 研究:
- 深入探討 language agent 中 language 與 agent 的本質
- 思考 language 的局限性,agent 能彌補什麼?
- 研究 language agent 在解決高挑戰性 benchmark 時的優勢
- 例如:ARC-AGI、AIME-2024 等
- Test time inference / adaptation :
- 這方向具體做法還是在百花齊放的時候,但是我認為這裡每個 flops 帶來的下游提升幅度會是遠小於 pretraining 或是 large post-training 的需要。
- 另一個我個人私心也想探討的是 program synthesis 方向(偏門題目)但屬於 underrated 的題目也會是能在數學、ARC-AGI 繼續大放異彩的地方
- 但是這類題目我認為對於運算的把控需要更加的精準,如果你問題對於提升 compute 進而帶來的下游提升不夠大則不是一個很好的方法。
source : Ilya neurips 2024 - test of time talk
反思、復刻、討論
讀到這裡我希望你先不要急著去選擇做任何的題目,而是花更多時間去補齊每個領域已有的 paper 再來做。因為大概70-90% 的 idea 已經有人做過類似的。我覺得在 AI 發表論文速度遠遠甩開人類閱讀速度的時代,從更高維度去反思這些做法的矛盾、缺陷在哪裡。另外如果你沒有親自跑過任何相關的論文,我極度建議去復刻看看每個方法,親自體驗一下任務難度、解決方法的實際弊病、LLM 具體說了什麼,才開始提出自己的見解。
卷、卷、卷
記得地球另一端的魔法師對於 6個月3篇論文的評價 : this is a normal pace
所以記得多組隊打怪,Ape together strong