在人工智慧的競爭戰場上,科技巨頭們一直在追求更大的語言模型,但一個令人驚喜的新趨勢正在出現:小型語言模型(SLM)正逐漸成為主流。隨著大語言模型(LLM)發展的停滯,研究人員和開發者越來越重視小型語言模型;這些密集、高效且靈活的人工智慧模型挑戰了「越大越好」的傳統觀念,有望改變人工智慧開發的整體方向。
大語言模型的性能是否穩定?
Vellum 和 HuggingFace 兩間公司最近的績效比較顯示,大語言模型(LLM)之間的表現差距正在迅速縮小;這一趨勢在特定任務上尤為明顯,如:選擇題、推理和數學問題等。頂級模型之間的差異已經不大,例如在選擇題中,Claude 3 Opus、GPT-4 和 Gemini Ultra 的得分都在 83% 以上;而在推理任務中,Claude 3 Opus、GPT-4 和 Gemini 1.5 Pro 的準確率都超過 92%。
有趣的是,甚至像 Mixtral 8x7B 和 Llama 2 – 70B 這樣的較小模型在一些領域(例如推理和選擇題)中表現優異,甚至超越了部分較大的模型。這說明語言模型的資料大小可能不是決定性能的唯一因素,而是結構、訓練資料和微調技術等方面也同樣重要。
Uber AI 前負責人暨《Rebooting AI》作者 Gary Marcus 說道。Marcus 在接受 VentureBeat 採訪時表示:從最近的研究論文來看,這些新發表的模型都與 GPT-4 屬於相似領域,雖然有些模型比 GPT-4 表現稍好,但沒有出現質的飛躍。我們可以說 GPT-4 比 GPT-3.5 進步了一大步,但過去一年多來並未發生任何本質的改變。
隨著大型語言模型的性能差距縮小,越來越多的模型展示出有競爭力的結果,這提出了一個問題:大型語言模型(LLM)是否開始走向穩定?抑或是已經達到了極限?如果這一趨勢持續,未來的語言模型開發和部署或將更注重效率和專業性,而不只是單純追求模型的增大。
大而無當的缺點
大型語言模型雖然有強大的優勢,但也存在明顯的缺點:首先,訓練大型語言模型需要龐大的數據和數十億甚至數萬億的參數;且訓練過程極為耗費資源,所需的運算能力和能源消耗巨大、成本高昂,使得中小型組織或個人難以參與核心的開發。OpenAI 執行長 Sam Altman 在去年 MIT 的活動上就曾透露,光訓練 GPT-4 的成本至少 1 億美元。
此外,與大型語言模型合作所需的工具和技術的複雜性也為開發人員帶來了陡峭的學習曲線,進一步限制了可用性。從訓練到建置和部署模型的周期時間過長,會延宕產品轉換為商業模式的能力;劍橋大學的一篇論文就顯示,公司可能需要 90 天或更長時間才能部署一個機器學習模型,這對競爭激烈的新創公司來說是一大硬傷。
真假難辨的內容
大型語言模型的另一個重要問題是它們容易產生「假象」——也就是生成看似合理但實際上並不真實的輸出內容,許多坊間甚至已對此出現諷刺說法:一本正經的胡說八道。這是源自於大型語言模型的訓練方式是根據訓練資料中的模式預測下一個最可能的單詞,而不是基於對訊息內容的理解。因此,大型語言模型可能會自信地產生虛假陳述、編造事實或以無意義的方式組合不相關的概念,甚至可以透過量化數據成為有心人的政治或仇很操作工具。
「人們目前還不會用它來解決高風險問題,因為你不會想侮辱任何客戶,或者得到不實的醫療建議,又或者直接用來駕駛汽車;這些需要真人檢核的風險仍然是個問題。」Marcus 警告。
大型語言模型的規模和黑箱性質也使得它們難以被檢視,這對建立模型輸出的信任至關重要;然而訓練資料和演算法中的偏見可能導致不公平、不準確甚至有害的輸出。正如 Google Gemini 所見,確保大型語言模型的「安全」和可靠性可能會降低其有效性;此外,大型語言模型的集中性質引起了對權力和控制權集中在少數大型科技公司手中的擔憂。雖然大型語言模型在人工智慧領域中展示了巨大的潛力,但它們也帶來了許多挑戰。
隨著小型語言模型的崛起,我們或許需要重新審視語言模型的未來發展方向,這場語言模型的革命才剛剛開始,下一篇文章中,我們將進一步介紹小型語言模型崛起的優勢,敬請期待。參考資料