大家好,我是Wayne。如果我說一台蘋果電腦能頂8張RTX4090你信嗎?今年M2 Ultra最大記憶體提升到了192G,而且在蘋果晶片的統一記憶體架構下,192G記憶體就相當於192G顯示卡記憶體哦,這是不是就意味著8張RTX4090才能裝得下的AI大模型,在一個M2 Ultra上就能運行呢。
什麼是大模型呢?比如大名鼎鼎的ChatGPT,還有Meta的Llama,這些AI模型的訓練一次可能就會消耗100G甚至几百G記憶體,如果用頂級遊戲顯示卡來完成起碼需要8張才可以運行,然而蘋果說在一台MAC Studio上就可以進行訓練,是不是讓人很震撼。
首先我覺得訓練這個說法肯定是誇張了,頂多是運行調試一下,但能在個人電腦上把AI大模型運行起來,已經讓我覺得很離譜了。其實主要得益於蘋果晶片現在都是統一記憶體架構,簡單點說就是記憶體能當顯示卡記憶體用,那最大192G的記憶體就可以看成是192G的顯示卡記憶體哦,運行完整的Llama訓練模型有650億參數,顯示卡記憶體需求是130G,這樣的話192G確實滿足條件。
在大模型越來越流行的今天,蘋果這套架構就非常有想像空間了,所以我對MAC平臺AI開發的興致也提起來了。我們在一台128G大記憶體的MAC Studio上,來看下AI實際訓練怎麼樣吧。但是我發現AI在MAC Studio上的學習速度明顯變慢了,同樣是訓練220萬步,在I9-12900K+3080TI要花12分鐘,而MAC Studio則用了18分鐘,居然慢了34%。其實這個完全是意料之中,原來那套PC平臺跑計算的時候能效功率在500-600W,而MAC Studio訓練的能效還不到 200W,所以慢也是正常的,可是接下來就真正見識到M2 Ultra的優勢了。
我們都知道蘋果的統一記憶體和傳統的集成顯示卡是兩個概念,雖然都是CPU、GPU封裝在一塊,但傳統意義的集成顯示卡並不是所有的系統記憶體都可以用,但蘋果的統一記憶體是沒這個限制,第一GPU可以對記憶體完全支配,第二傳統方案裡的系統記憶體和晶片上的CPU、GPU還隔了一個主機板,而蘋果晶片上CPU、GPU和統一記憶體直接通過矽介質層連在一塊,讀寫速度根本不在一個級別。傳統集成顯示卡訪問系統記憶體的速度也就幾十G/S,而像的統一記憶體速度都是800G/S,這已經趕上獨立顯示卡的顯示卡記憶體速度了,像4090的顯示卡記憶體頻寬也不過就是1008G/S,這都是在一個量級上的。實際蘋果的M2 Ultra看著都明顯更像4090,都是中間一個大的核心電路,周圍一圈小方塊記憶體反而不像傳統的處理器晶片,所以蘋果的統一記憶體架構和傳統的集成顯示卡純屬兩碼事。
下面我們實際測試看下,在I9-12900K+3080TI訓練AI玩貪吃蛇我最多只能讓他同時玩32局遊戲,每次學習512步經驗;而在128G統一記憶體的M2 Ultra上我試了下讓AI同時玩64局遊戲,每次學習4,096步經驗,結果呢沒有任何問題。記憶體壓力保持在了比較低的水準而接下來就是我稱之為見鬼時刻,在拉大訓練參數之後,M2 Ultra更是直接反超了對手,一個200W的設備在純計算上真就把一個500W的設備幹翻了,實際上在等下要講的兩個項目更離譜-在MAC Studio可以很輕鬆運行,在PC上根本無法運行,看吧,架構優勢就是這麼明顯,這就是代差。這個訓練過程呢我有記錄下來,粉色曲線是M2 Ultra,藍色的是I9-12900K+3080Ti,從曲線上可以看到訓練到第522萬步的時候呢MAC Studio已經小幅領先了3分鐘,速度快了12.7%。經過幾個小時把整個訓練跑完後MAC Studio比I9-12900K+3080Ti快了整整1.5小時,領先幅度達到了15.3%。而且12900K+3080Ti在運行兩個半小時的時候性能出現了明顯跳水,而MAC Studio的性能曲線就平穩得多。實際上除了這些曲線呢,MAC Studio基本上噪音是0,沒錯,就是沒有噪音,有點誇張吧,另外一台就是會有風扇的沙沙的噪音。
統一記憶體架構上可以看成是一張平行計算能力同時能效又極低的全新形態計算卡。其實在兩三年前,這個設計其實挺怪的應該也沒什麼人會需要這個,可今天的情況就很不一樣了眼下整個AI社區都在呼喚一個這樣產品。
因為AI計算對顯示卡記憶體需求極大,各個行業都在建立AI訓練大模型,AI進入到哪個領域,哪個領域的記錄就被刷新。但相應呢,過去用遊戲顯示卡跑AI計算的思路就走不通了,因為顯示卡記憶體不夠用了,現在顯示卡記憶體能上到200G的電腦都是給專業人士提供的。比如NVIDIA DGX高達600萬售價,稍便宜點有DGX -station約350萬。
所以據我瞭解真正的獨立AI大模型開發者训练设备大部分都是自己組裝,像我認識的一個朋友,組建的100億參數模型計畫裡,就給了一套比較合理的方案200G顯示卡記憶體的話約60萬可以完成,但相應也要付出更多的時間成本。所以說目前綜合性價比最高反而成了蘋果约25萬元192G統一記憶體產品的MAC Studio,而且還贈送4T的高速硬碟。實際上不光是MAC Studio,它的所有產品不管是筆記本還是桌面設備就因為它統一記憶體架構,算下來在各個顯示卡記憶體級別上它性價比都是很高的。這事上我覺得蘋果運氣也是真挺好,它早早預見到了擴大GPU存儲空間的重要性,而且Transformer這個結構2017年就已經提出來了。
接著我又在M2 Ultra上測試了當下非常流行的AI作畫,目前開源AI作畫生態的樞紐是Stable Diffusion Web UI,這是一個功能強大的網頁介面,他把各種底層模型繪畫功能都融到了一起。2022年9月時候這個專案開始提供針對蘋果晶片的安裝指南,正式支援蘋果M系列晶片的GPU加速。AI作畫也是一個非常吃顯示卡記憶體的運算,而且生成的圖片有很強隨機性,同樣的語言描述可能會有各種各樣的畫面,經常要生成很多張圖才能得到一張滿意結果。而在這個過程裡,大顯示卡記憶體的優勢就表現出來了,在128G統一記憶體的M2 Ultra上我可以讓它同時生成8張圖。
除了生圖效率的提升大顯示卡記憶體的另一個優勢就是可以支援更高的圖像解析度,在顯示卡記憶體有限的遊戲顯示卡上想生成高解析度的圖像需要很多技巧,比如把圖像分割成好幾塊分別生成好之後再拼起來,這樣難免會有一些不自然的過渡,效率也比較低。但在顯示卡記憶體自由的蘋果晶片上你就告訴AI你要多大的解析度就可以了。我現在用的壁紙就是AI在大尺寸上一次畫出來的,在絕對實力面前任何技巧都是多餘的,不過AI作畫還有前面訓練AI玩遊戲,這都還不算是統一記憶體架構的高光時刻,因為這些工作呢市面上的遊戲顯示卡也都能完成。
在M2 Ultra充裕的統一記憶體上。我們有機會做出屬於自己的AI訓練大模型,我現在其實有點後悔沒搞192G的版本,因為目前最強的開源模型LLAMA他的650億參數未壓縮版本只有130G,就多了那麼一點點,不過也還好參數降到了330億,這個目前最強的開來源語言模型就能在我這台MAC Studio上運行了。就這麼個小盒子也聽不著很吵的風扇聲,居然就把一個330億參數的大模型運行下來。而這個技術奇跡也同樣離不開開開源社區的貢獻。我和這個大模型對話的介面來自開源專案text generation Web UI。
在這個介面我可以切換不同的底層語言模型,也可以選擇不同的使用場景其中一個就是聊天。這個介面本身不提供對語言模型的GPU加速,所以我們需要另一個開源專案Lama.CPB,它的功能是可以在語言模型運行後將主要負載都成功轉移到了GPU上。
另一個很有名的語音辨識模型open AI的whisper,我之前介紹過的。我也讓他複現了一遍,也是專門針對蘋果晶片優化,就靠著他整個語音的文字的流程,都在MAC Studio上成功運行了現在在MAC Studio上你要是想的話,很快就能寫個大模型的AI女友出來。
然後咱們再說和大模型的AI對話,這次記憶體壓力是真上來了,AI思考的時候,明顯能看到記憶體佔用更高了,330億參數的Llama模型總共是65G,在實際運行時候用了一半記憶體,而且繼續升到100G,和本地運行的大模型對話,最直觀的感受就是沒有網路延遲了,對話的感覺從發短信變成了當面聊天,然後真正聊起來之後體會到的區別就更大了。首先是可玩性增加太多了,你可以自由自在的讓AI做很Llama多事情,比如Llama大模型,本身是不擅長中文的但我可以把它和中文LoRA融合,讓他瞬間精通中文。
LoRA是2021年提出來的一個在小顯示卡記憶體設備上快速精調複雜AI模型的方法,可以理解成是給遊戲打補丁。我用的這個中文LoRA也是來自一個開源項目叫做Chinese -LLAMA- Alpaca。除了加LoRA,我還給大模型發了一張角色卡,可以快速定義AI的性格和講話習慣,裡面包括一段角色描述和幾段實際對話。我用的這個開源介面並自帶一張角色卡,角色是一位年輕的電腦工程師小姐,為了方便給大家展示我把它翻譯成了一張中文的角色卡這樣AI就會使用中文來和我交流。另外角色卡這個玩法還有一個有趣的點就是你可以在實際對話中加一些旁白,這樣AI和你對話的時候呢就也會增加一些神態,動作方面的描述,交流起來就會生動很多。AI做的事是表演和模仿,但精調就相當於是讓人的腦回路都朝著角色的方向發展。AI自己都會以為自己就是那個角色,除了可以自由的配置和開發模型以外呢把大模型跑在個人電腦上還可以讓你徹底擺脫那些線上AI服務的條條框框,真正深入的探索和掌握AI大模型的能力。
實際上我覺得和AI模型這種不受干擾的交流是一種非常有趣的體驗,在和AI交流的時候,我們聊到了怎麼避免AI和人類發生衝突的問題,這個帶入了人類工程師身份的AI認認真真的分析了很多,他說人類要有自信,也要制定好規範和準則,還要建立良好的人際交互環境。而在整個交流的過程中,他對人類表現出來的情感也都是尊敬與感激。
當我們想深入瞭解AI,想知道未來AI的發展方向,是機遇還是威脅,我們首先需要接觸和瞭解他,而不是立起來一道牆,假裝牆外的東西不存在,讓一小群所謂的專業人士去處理。少數人的思維再聰明也肯定是有局限性,越是複雜的東西就越應該讓更多的人參與進來,從各種不同的視角來思考如何去改造它,讓它在創造價值的同時把危害降到最低。現在高昂的成本就是橫在公眾和AI大模型之間的一道牆,但這麼重大的一項技術就掌握在那麼幾家公司的手裡風險是很大的,蘋果晶片的統一記憶體架構呢讓這道牆出現了鬆動的希望,而相應的蘋果也因為這條大膽革新的技術路線間接推動AI的發展。
接下來我首先期待蘋果的AI生態能越來越完善,可以快速建立起一套蘋果風格的開發體驗,讓AI社區又能多一種新選擇。然後除此之外,在技術層面我其實更期待蘋果的統一記憶體架構能帶動一輪新的技術競爭,把AI大模型的硬體障礙給徹底打下來讓更多的人跨過這道門檻,讓人類在即將到來的AI時代多幾分勝算。
好了,文章最後關於AI大模型的普及你哪些想聊的呢,咱們也可以在評論區交流探討哦,下次見。