DeepSeek爲何省晶片? 內行人曝Open AI弱點:少一個步驟

大陸的AI程式Deepseek一夕竄紅。(路透社)

大陸DeepSeek運算模型橫空出世,節省效能讓成本變成1/10,顛覆了高階AI晶片產業。精神科醫師沈政男指出,DeepSeek節省晶片,是因爲少了一個價值函數的訓練步驟。他強調,AI的最大弱點就是沒辦法自我評價,DeepSeek就是藉由自我評價來調整學習步驟,比較接近人腦的學習策略。

沈政男2日發文表示,附圖是從DeepSeek團隊發表的論文擷取出來,可以看到爲什麼他們的模型比較節省晶片,就因爲少了一個步驟,也就是價值函數的訓練。AI的原理,是讓機器學會做某件事,而前提就是給予訓練,然後從錯誤中找到最好的工作策略。比如蒙地卡羅方法就是AlphaGo使用的訓練方法,原理是讓電腦亂下棋步,然後推演出勝算最高的一步。常用優化的策略是馬可夫鏈,也就是根據前一步來推算下一步最佳方案。

沈政男提到,再來就是利用價值函數來估計,而形成了所謂一般優勢估計(Generalized Advantage Estimation),而這也就是Open AI使用的PPO,趨近策略優化,最重要的步驟之一。它的缺點是需要大量晶片運算來做價值函數的訓練,也就是對於機器的輸出值,每一個都要給予評價,就好像老師必須對班上每一個同學的每一次考試,都給予個別考覈一樣。

沈政男指出,DeepSeek就不一樣了!它不使用價值函數,不需要額外聘請評估的老師,而是從同學們的羣體輸出值裡,藉由相互比較,來得出最好的策略。也就是,某一個教學方法如果比較好,那麼同學的分數普遍都拉得比較高,是不是每一個同學跟平均值的差距就會變小?這樣瞭解嗎?

沈政男直言,中國大陸的AI科技,早就是世界第二強了,接下來就是挑戰美國。AI基本上是大國遊戲,就好像製藥工業與汽車產業一樣,臺灣玩不起。比起製藥工業與汽車產業,中國大陸追趕美國的速度又更快一些,原因是純粹就是腦力的對決,不像製藥與造車需要技術傳統與硬體基礎。對於AI,距離智慧兩個字,還有很長的路要走,基本上就還只是一種運算。AI的最大弱點就是沒辦法自我評價,需要人類給予指點。

沈政男強調,DeepSeek的特點之一,就是藉由自我評價來調整學習步驟,比較接近人腦的學習策略。