一句筆記
作為家長,我更希望孩子能以我意想不到的方式超越自己。
就在昨天(2/13),OpenAI的CEO Sam Altman 宣佈將直接推出GPT-5,這款新一代模型甚至將免費開放,相信和近日爆紅的DeepSeek不無關係。從幾年前的GPT-2、親歷GPT-3、GPT-4 到 OpenAI-o1的進化,再到最近引爆熱議的DeepSeek-R1,AI的可用性飛躍已無庸置疑。身為深度使用者,研究了AI訓練方法後,發覺人工智慧的成長與人類教育本質其實是相通。
從AI三階段訓練解碼育兒本質
1. 廣泛接觸期(預訓練 Pre-training)
AI系統被灌輸海量網路文本(書籍、文章、網頁和影片字幕等),透過「預測下一個詞」的任務學習語言規律。此階段建立基礎語言理解能力,但無法執行具體指令。此時的AI如同博覽群書卻不懂應用的知識庫,恰似幼兒專家強調的「感官刺激期」:與其急著教三歲孩子認字背乘數表,不如帶他們到公園觀察螞蟻、在廚房揉麵團感受質地變化。這些豐富的感官刺激,會形成孩子理解世界的基礎,而且遠勝單一管道輸入。
2. 規範學習期(監督微調 SFT)
工程師提供大量「問題+理想回答」的配對數據(如翻譯範例、數學題解),訓練AI遵循特定格式產出內容,說白了就是模仿和記憶別人的解題套路,塑造AI的應答規範與任務處理模式。此階段形同學校的「標準答案訓練」:學生被要求用固定格式寫作、按步驟解數學題。這種方法能快速培養「考試機器」,但就像過度訓練的AI,孩子會失去應變能力。很多中學生遇到沒教過的題目就放棄,正是這種教育的後遺症,可惜真實問題從不按格式出牌,形成日後高分低能的成年人,過度監督只會培養套路奴隸,喪失應變能力。
3. 自主探索期(強化學習 RL)
AI自動生成多種回答版本,由人類評分員或輔助模型進行質量評比,系統根據分數反覆調整參數,逐步提升回答的準確性、安全性與符合人類偏好的程度。AI最厲害的能力,其實來自「自己試錯改進」,不同於監督微調,通過強化學習才能讓AI舉一反三。孩子也一樣,從不斷錯誤及覆盤中學習的過程,比任何補習班都有效。
AlphaZero的覺醒:「不聽話」才是進化關鍵
2017年,DeepMind的AlphaZero不依賴人類棋譜(SFT),僅僅透過純自我對弈(RL),以100:0碾壓當時最強棋類AI而廣受關注。其招法被職業棋手評為「顛覆傳統認知」——AI就像對人類棋手說:「他」根本不在乎人類的棋路。這給教育者一記重擊:當我們用SFT固化思維時,真正的突破正來自「自由的RL」。
DeepSeek-R1的策略是盡量少用監督微調,預訓練後就進入強化學習階段。R1的模型厲害之處在於DeepSeek幾乎沒有經過監督微調,直接用強化學習賦予了思考能力。DeepSeek嘗試純粹以強化學習產生了DeepSeek-R1的原型,可惜原型在思考過程中會產生不明所以的表述,導致人類難以理解它的思維鏈(和我家中小孩完全一致,什麼都懂,就是講不出有條理的句子。汗……)。為改善這個問題,DeepSeek在RL之前增加了一個輕量級的SFT環節,教模型如何表達,最終得出現在的DeepSeek-R1模型。人類教AI的思考套路,總是被AI自己發現的方法所超越。
三種認知進化者:培養孩子成為哪種人?
1. 預訓練型(PT型)
– 特徵:理論大師,實踐侏儒
– 案例:熟讀育兒經典卻對哭鬧束手無策的家長 / 懂得算式卻不懂去市場找錢的小朋友
2. 監督微調型(SFT型)
– 特徵:規矩模範,創新絕緣
– 案例:按攻略養出「別人家的孩子」/ 沒有手冊就不懂做事的成年人
3. 強化學習型(RL型)
– 特徵:自由生長,破界突圍
– 案例:用Minecraft自學建築力學卻拒上補習班的「網癮少年」
從「監督攻防」到「成長護航」
試想一下,一個孩子每天只是被監督調整而沒有自主學習,他一定會是個循規蹈矩的悶人。相反,缺乏引導的學習可能陷入盲目試錯,如同AI生成無意義思維鏈消耗算力。作為家長應做的是:
- 提供開放式學習環境(提供能力所及最廣的預訓練)
- 設定最低限度安全規範(輕量及時的監督微調)
- 容忍試錯過程的混亂(對自然生成的行為給予獎勵)
就結果來看,OpenAI-4o和DeepSeek-R1都是出色的好孩子,能力都很好,思維能力很強。但最現實的問題是,在家中的有限資源下,我們能夠用什麼方式去培養孩子?是著重「監督微調」的OpenAI孩子,還是重視「強化學習」的DeepSeek孩子?
我相信正如DeepSeek-R1需經歷「初期胡言亂語」階段才能突破,我們也該容忍孩子成長中的合理混亂度——那些看似無意義的塗鴉、沉迷的遊戲、頂嘴的爭辯,可能正是強化學習型思維的萌芽現場。
教育的終極成就,是培養出能用我無法理解的方式解決問題的下一代。我們也該掙脫「標準答案」的執念——因為未來,永遠屬於那些「不聽話」的探索者。
