大家好,我是Wayne。知道嗎?AI大地震了,穀歌發佈了最新AI模型Gemini!先看演示:我們開始吧,告訴我你看到了什麼?“我看見你在桌子上放了一張紙。”“我看到了一條彎彎曲曲的線。”現在呢?“等高線光滑流暢,沒有銳角或鋸齒狀的邊緣,在我看來,它就像一隻鳥。”添加這個呢?“這只鳥在水裡游泳。它有一個長長的脖子和喙。”是的,這是一隻鴨子。“鴨子是水禽科的一種。白晝鴨與鵝和沼澤鴨關係密切。”“這只鴨子似乎是藍色的。然而,這並不是鴨子身上常見的顏色。”有一些品種的藍鴨。“這些鴨子通常不像其他品種的鴨子那樣常見。鴨子更常見的情況是棕色、黑色或白色。”你肯定嗎?“什麼呀!我剛剛才說這是一隻藍鴨子,現在你就拿著一個,看起來藍鴨子比我想像的更常見。這個鴨子會浮動嗎?我不確定它是用什麼材料做的,但它看起來可能是用橡膠或塑膠做的。”如果我告訴你它在發出吱吱聲呢?“噢如果是吱吱聲,它肯定會漂浮起來的。”嗯,是的!“這是一隻橡皮鴨。它是由一種密度不如水大的材料製成的。”
再來個示例: 給他一張地圖,和他做個遊戲。“這只鴨子躺在海洋的中央。附近沒有土地供鴨子休息或尋找食物。這片區域不太可能找到鴨子。”好吧,根據你所看到的,想出一個遊戲點子,請用表情符號。“這個怎麼樣:我們可以玩一個叫做<猜猜這個國家>的遊戲。”當然,讓我們去做吧!“線索1:這個國家是袋鼠、考拉和大堡礁的家園。”“線索2:這個國家熱愛足球,擁有男足世界冠軍最多的國家。”
再來看兩個常見的杯子遊戲: “你試圖讓我找到紙球下麵的杯子,我接受挑戰! 左邊的杯子。”給兩團毛線,看看他的創意如何?“我看到了粉色和綠色的紗線。做一個火龍果怎麼樣,或者粉紅色心的綠色蛋糕怎麼樣?”好吧,這個顏色怎麼樣,也許給我看看一些動物?“好吧,現在我看到了藍色和粉色的紗線。藍耳朵的豬,章魚或粉紅色鼻子的兔子怎麼樣。”
再來一些科學性的問題看一看:這是正確的順序嗎?“不,正確的順序是太陽,地球,土星。”根據他們的設計哪一種會更快?“右邊的車會更快,更符合空氣動力學。”看個更厲害的,你只管想像,AI幫你實現。“我看到你在畫一把吉他,你現在已經加了一個放大器,這是一把電吉他。既然你加了鼓,我們現在可以做一些非常響亮的音樂了。那一些80年代的金屬發器怎麼樣?好吧,我看到你在畫中添加了一棵棕櫚樹,現在變成了海灘氛圍。”
看完演示先別走,接下來,我會從具體6個方面介紹Gemini,告訴您和傳統生成式AI有哪些不一樣,並且會告訴你為什麼會領先於Chat-GPT4,未來可能的應用場景有哪些,最後會和你聊一聊AGI通用人工智慧。我們先從六個方面,全面的介紹一下Gemini,他到底是個什麼水準的存在,先說結論:他是截止目前最強的AI。第一方面:AI智能大升級。Gemini在MMLU中全部打敗chatGPT4,這需要稍微解釋一下,MMLU就是大規模多工語言理解,這是一個涵蓋了多個領域,包括數學、物理、歷史、法律、醫學等57個學科的語言測試理解,衡量的是知識面和解決問題的能力。要注意的是,這次他不僅是超越了ChatGPT,同時,也是第一個超越了人類專家水準的AI。他可以像我們一樣理解周圍的世界,不僅是文本,還包括代碼、音訊、圖像、影片。
第二:原生多模態。Gemini和chat-GPT在多模態的底層理解上不同,GPT是做了多個不同的單獨模型,單個模型要麼是只處理文字,要麼是只生成圖片,後期再把這些單獨的模型拼湊成一個整體,雖然功能都有,但是用起來就是很生硬、不流暢。而Gemini是原生多模態,從一開始,就是要做一個能夠處理多種資訊的整體。包括文字、圖片、影片、音訊和代碼,就像一個人可以同時聽說讀寫看一樣,所以在多模態這個角度,Gemini遙遙領先於GPT。
第三:推測用戶意圖。在執行任務方面,Gemini和GPT很不一樣。GPT更多的是機械的執行一個任務,比如你問GPT怎麼給女兒準備生日派對,它給你一些靈感,但除此之外就沒有了。但Gemini會推測你的意圖,具有邏輯思考能力。Gemini同樣收到了"準備女兒生日派對"這個任務,他會主動思考。覺得資訊不夠,就問你女兒的興趣是什麼。你說女兒對動物感興趣,然後希望活動在戶外,它就開始自己思考。至於右邊這些邏輯以及程式設計,都是Gemini自己生成的思考過程。它會想要不要做個UI介面,也不知道女兒喜歡什麼動物,那就多給你準備幾個動物選項,並用程式設計能力做個介面,方便你稍後直接可以交互、點擊,在你看來其實就是AI響了幾秒,然後我幫你做了一個網頁,你可以選擇你要去農場或者動物派對也可以選擇想要吃食物,如果不會的話,他可以一步一步教你怎麼做這個食物。也就是說,Gemini原生具備了類似AutoGPT的能力,也就是拿到任務,拆解成小任務,分佈思考,然後分佈執行。
第四:具備強數學能力。GPT目前的問題就是不具備數學能力,你讓他寫100字,他會寫80或者150,很難精確的寫100字,但他根本就不會數數。要解決數學問題,GPT都是靠外界協力廠商外掛程式來解決。但Gemini特別擅長數學、物理這些需要計算的複雜學科,能解決很多問題。比如可以上傳你的數學題,因為Gemini天生具備視覺,他會一步一步告訴你哪裡做錯了,就像有個輔導老師當場指著你的卷子告訴你這個公式錯了,應該怎麼改。這個當然不只是改個卷子這麼簡單啊,會對整個教育和科研造成巨大的影響。
第五:最強程式設計能力。一句話,Gemini能程式設計、能自己解決bug、能直接寫出可以用的程式。GPT4也可以寫代碼,但親測他寫的代碼經常報錯。還得人來修bug。Gemini可以理解、解釋和生成世界上最流行的程式設計語言,比如Python、Java、C++,沒有語言障礙,能夠跨語言處理複雜任務。穀歌的程式設計AI在Gemini加持之後,在世界程式設計大賽中擊敗了85%的參賽者,也就是說,AI的程式設計能力超越了絕大多數程式師,這就很恐怖了!
第六:多版本。穀歌把這次的介面呢做出了三個版本,分別是Nano、Pro和Ultra。其中Nano版本參數量小,相對而言能力沒有那麼強,但是好處就是可以直接被集成到Pixel 8Pro谷歌手機中,可以直接在手機上運行。Pro版本可以在穀歌AI BARD上使用,能力呢屬於居中檔。我看到有些人測試啊,說Gemini沒有發佈會吹這麼牛,是因為現在給我們測試能夠用到的只有Pro版本,不是發佈會演示那個Ultra版本。最強大的Ultra版本將在24年初推給開發人員和企業用戶,普通人的話暫時還用不了。
講完了特徵,再來分享幾個未來很有可能會實現的具體應用場景,算是一個暢想,可以一起想像一下:
一、AI自動駕駛
現在自動駕駛還有很多問題沒有解決,其中有個很典型的問題,就是複雜路況不知道怎麼處理。Gemini的能力是多模態,可以即時看到現在發生的事情,並且做出更理性的決策。Gemini可以解決自動駕駛的很多問題,比如面臨複雜路況蒙圈的問題就提供一個很強的解決方案,距離真正的自動駕駛感覺就不遠了。
二、AI醫療
這個其實不是才有的,AI醫療基於生成式文字大模型就有了,有專門的APP投喂了大量的醫療資料給AI,做出了專門面向醫療的AI助手。那個助手就有點像是線上問診,通過你描述病情,然後他做出智慧判斷,這個我用過,體感還可以。解讀化驗報告的話,感覺比醫生講的更詳細。但如果搭配Gemini的能力,因為他能看到你,就相當於有個面對面的醫生在你身邊。一切是對話式的醫生最多給你看一下西醫,看一下你的化驗報告。未來的Gemini就是中西結合,不僅能看報告,還能望聞問切,即時看一下你的臉色。
三、AI做飯
現在的自動炒菜機其實很雞肋,說白了就是內置菜譜,幫你放調料和翻炒,具體的擇菜、切菜、備菜,這些真正麻煩的事,還得自己來。但Gemini能夠即時看到現在的場景,就備菜這件事提供了解決方案,他既然能告訴你什麼菜不好,就能搭配機械臂去摘菜,剔除壞葉子,實現切菜、炒菜什麼的。買菜就更簡單了,網上下單,送貨到家。未來還真的有可能根據你的身體情況,制定一個飲食計畫,然後自動幫你下單、買菜、備菜、洗菜、做菜。你吃完之後呢,最後再收碗、洗碗。我們真的是只要等著吃就可以了,其他的什麼都不用管。這就是幾個暢想的方向了。抛磚引玉,你看到Gemini展現能力,如果你也想到了能夠和現實結合的地方,也歡迎你在評論區討論。
最後來講一講,AGI也就是通用人工智慧。簡單翻譯,AGI就是一個能夠像人一樣思考和學習的超級AI,它不是那種只會執行命令的AI,而是能夠自己學習新東西、適應新環境,甚至自己做決策。就像你教他做飯,過幾天它可能就自己學會做家務了。簡而言之,AGI不僅是可以執行你的命令,而是能夠像人一樣思考和學習,這個就非常恐怖。看現在AI的發展,估計AGI真的不遠了。看那些AI的書,有幾個AI專家在GPT-4出現之前,認為AGI還要30年才會來;GPT-4出現後,認為AGI會在未來5-8年實現;現在Gemini出來了,不知道這些專家會不會有新的想法。AGI的到來是有很大風險的,會對人本身的價值造成巨大的衝擊,但同時不可否認的是,它會推動生產力的爆發式增長。未來還真的有可能出現"按需索取"、物質極大化的世界,這天估計真的不遠了。
好了,這就是google發佈的最新AI-Gemini的超能力了,看過後你是不是也感到很震撼呢?最後感謝你的點贊支持哦!