大型語言模型修練史 — 第三階段:參與實戰,打磨技巧
在第二階段,模型透過人類老師的指點學會了「招式」(回答問題的方法),但其生成的內容仍未必能完全符合人類的偏好或多元的價值判斷,因此需要進入第三階段:參與實戰,打磨技巧 (Reinforcement Learning from Human Feedback, RLHF)。

RLHF 的基本機制
- 核心定義:透過人類的回饋資訊來進行學習的方法,稱為增強式學習 (Reinforcement Learning, RL)。
- 學習訊號:不同於前兩個階段的文字接龍,RLHF 沒有明確告知下一個 Token 是什麼,而是由模型產生多個答案,讓人判定哪一個比較好。
- 運作原則:人覺得好的答案,就提高產生該答案的機率;人覺得不好的答案,就降低其機率。
- 微調演算法:ChatGPT 在此階段使用的主要演算法稱為 PPO (Proximal Policy Optimization)。

RLHF 與第二階段 (Instruction Fine-tuning) 的比較
根據來源資料,這兩個階段雖然都需要人類介入,但在執行面與模型學習邏輯上有顯著差異:
-
人類負擔 (產生資料的角度):
- Instruction Fine-tuning