K
Knifey2 個月前

語言模型戰爭(下):大模型(LLM)還是小模型(SLM)將佔據未來?


在上次的文章中,我們已經提過關於大型語言模型(LLM)的競爭優勢與崛起;而新的小型語言模型在LLM的停滯中又再成為新的科技優勢,這兩種技術有什麼發展差異,小型語言模型(SLM)又為何崛起?

什麼是小型語言模型 (SLM)

小語言模型SLM可以視為是LLM的更精簡版本,參數更少、設計更簡單;只需要更少的數據和培訓時間——幾分鐘或幾個小時,而大型語言模型需要幾天的時間。這使得 SLM 能夠更有效率、更直接地在現實應用或較小的設備上實施。

SLM的主要優勢之一是它們適合特定的小範圍應用,因此與大型通用模型相比,更適合針對特定任務進行微調。這種客製化優勢使公司能夠創建非常有效滿足其特定需求的SLM,例如情緒分析測試、實體識別或特定領域的交互問答。與使用大型語言的廣泛模型相比,SLM 的專業性質可以提高這些單一目標的效率。

SLM 的另一個好處是它們的隱私和安全性相對更好,由於程式碼和資料庫和通常是採用更簡單的架構,SLM更容易除錯和審查,並且不太可能出現意外漏洞。在處理敏感資料的功能很有吸引力,例如醫療保健或金融領域,這些重要資料外洩可能會造成嚴重後果。此外,SLM對運算要求的降低使其更適合在設備或小型伺服器上運作,這種在地化的處理可以提高資料安全性,降低資料傳輸過程中暴露的風險。

與大型語言模型相比,SLM也不太容易在其特定領域內出現未被發現的假訊息;由於SLM通常在特定領域的資料範圍更狹窄且會在更有針對性的資料庫進行運算,該模型通常只學習最相關的模式、詞彙和資訊。這減少了產生不相關、意外或不一致輸出的可能,憑藉更少的參數和更精簡的架構,執行單一任務的SLM不太容易因為其他雜訊而出現錯誤。

人工智慧新創公司HuggingFace的執行長Clem Delangue表示:高達99%的案例可以使用SLM來解決,並預測2024年將會是SLM的年代。HuggingFace 的平台使開發人員能夠建立、訓練和部署機器學習模型,前陣子剛宣布與Google建立策略合作夥伴關係。兩家公司會將HuggingFace整合到Google的Vertex AI中,使開發人員能夠透過Google Vertex Model Garden快速部署數千個模型。

在最初將大型語言模型的優勢輸給OpenAI後,Google正在積極尋求採用SLM反敗為勝的機會。 早在二月份時,Google就推出了Gemma——一系列新的小型語言模型,用來提高效率和用戶友好性。與其他SLM一樣,Gemma可以在各種日常設備上運行,例如智慧型手機、平板電腦或筆記型電腦,無需特殊硬體或其他複雜的安裝步驟。

自Gemma發布以來,經過訓練的模型上個月在HuggingFace上的下載量已超過400,000次,並且已經出現了一些令人興奮的成果。例如,Cerule是一個強大的圖像和語言模型,它將Gemma 2B與Google的SigLIP結合,並在海量圖像和文字資料集上進行了訓練。Cerule利用高效的資料選擇技術,這表明它無需大量資料或運算即可實現高效能,非常適合新興的邊緣運算。

另一個例子是CodeGemma,它是Gemma的專業版,專注於編碼和數學推理。CodeGemma提供了針對各種編碼相關活動量身定制的三種不同模型,使開發人員更高效地使用高級編碼工具。

SLM的變革潛力

隨著人工智慧社群不斷突破停滯曲線、更快的開發週期、更高的效率以及根據特定需求自訂模型的能力,這項優勢變得越來越明顯。SLM將提供更符合成本的成果來實現人工智慧存取的跨界創新。同時部署為金融、娛樂、汽車系統、教育、電子商務和醫療保健等各個領域的即時、個人化和安全應用開闢了新的可能性。

這種去中心化的人工智慧方法有可能改變企業和消費者與科技互動的方式,在現實世界中創造更個人化和直覺的體驗。由於大型語言模型尚無法做到這樣的開發速度,這些效能瓶頸有可能會因此被SLM彎道超車,而小型語言模型的興起有望使人工智慧生態系統以令人印象深刻的速度發展,究竟未來哪項科技會優先勝出?讓我們持續引頸期待。

上集點我


圖片
圖片
圖片
圖片
圖片
圖片
(使用 Facebook 留言外掛程式 留言無法滿足本網站參加活動之資格,僅供非會員討論使用)
互動地圖
interactive taiwan map