7 月 7 日,阿里云「AI繪畫創作」大模型通義萬相亮相,在大模型領域又落一子。
阿里云的「通義大模型家族」,加入了新的成員。
7 月 7 日,上海 WAIC 世界人工智能大會期間,阿里云公布了新的 AI 繪畫創作大模型通義萬相,將大模型的模態從文本和語音延伸到圖像,逐步向多模態模型靠近。
阿里云在會上介紹,通義萬相擁有文生圖和圖生圖能力,可輔助人類進行圖片創作,大幅降低圖片設計門檻,可應用于藝術設計、游戲和文創等應用場景,目前已開啟定向邀測。該模型首批上線的功能具體包括以下三種:
- 文本生成圖像。輸入文字描述畫面并選定創作風格(水彩、油畫、中國畫、二次元等),AI 即可自動生成創作圖片。
- 相似圖生成。提供一張參考圖像,可獲取內容、風格相似的 AI 畫作。
- 風格遷移。上傳原圖和風格圖,可自動把原圖處理為指定的風格圖。
輸入一段提示詞,通義萬相生成的 AI 創作圖片
時至今日,大模型將重塑軟件服務行業已經成為行業共識。作為國內最大的云服務廠商,過去一段時間阿里云不斷加大這一領域的技術和產品研發投入,阿里巴巴集團董事局主席、首席執行官張勇甚至親自掛帥,擔任阿里云智能集團的 CEO。
正如張勇在接受采訪時所說,所有行業、所有應用、所有軟件、所有服務,都值得基于新型人工智能技術、基于 AIGC 各方面技術支撐、大模型支撐重做一遍,這一定不僅能帶來創新性的客戶體驗、客戶服務的滿足,也會讓我們的生產范式、工作范式、生活范式發生很多變化。
從阿里云首次公開基礎大模型通義千問,已經過去三個月的時間,阿里云自研大模型的布局,也已初見端倪。
苦練內功多年,通義大模型家族開花結果
無論是Transformer還是Diffusion,都為大模型的研發奠定了基礎。兩大主流框架的問世讓大模型研發的門檻大幅降低,但在這之上的創新則是研發出差異化競爭優勢大模型的關鍵。
根據阿里云介紹,通義萬相是阿里在大模型領域苦練內功多年的產物,其基于阿里研發的組合式生成模型 Composer,后者是一種基于擴散模型的「組合式生成」框架,這一引領性的成果早在今年2月相就已發表,并吸引了國內外行業內人士的廣泛關注。
其基本原理是:先將圖像拆解成不同設計元素(配色、草圖、布局、風格、語義、材質等),再使用 AI 模型將這些元素重新組合,中間使用的元素可以自由編輯。假設有100張圖片,每張圖片拆成8種元素,則全部元素的組合方式有100的8次方種之多,這被阿里云稱為「組合爆炸」,可以給人類設計師生成圖片提供極大的自由度和想象空間。
加上此前已經推出大語言模型「通義千問」和聚焦音頻的大模型應用產品「通義聽悟」,三個月的時間,阿里已經推出三個不同的大模型和產品,模態也已經從對話、文本等文字處理,延伸至音頻、圖像領域。
短時間內在產品層面取得進展的背后,是阿里在NLP、計算機視覺等前沿科研領域多年的布局的結果。
極客公園梳理了阿里大模型的發展脈絡。如下圖所示,阿里最早于2018年底啟動大模型研發,在 2022 年的 AIGC 熱潮到來之前,阿里已經在超大模型、語言及多模態能力、低碳訓練、平臺化服務、落地應用等多個方面,做出了一定的投入和嘗試。
阿里大模型發展時間線丨制作:極客公園
2022 年四季度,ChatGPT 發布后很快掀起了新的一輪 AI 熱潮,阿里也加快了行動步伐,加速將實驗室里的技術產品化,推入市場。
2023 年 4 月 7 日,阿里云正式推出大語言模型「通義千問」,該模型能夠響應人類以自然語言方式提出的各類指令,擁有回答問題、創作文字、編寫代碼等能力。兩個月后,阿里云上線了音視頻 AI 產品「通義聽悟」,后者是接入了通義千問大模型能力的應用產品,用戶可以隨時隨地高效完成對音視頻內容的轉寫、檢索、摘要和整理,比如用大模型自動做筆記、整理訪談、提取 PPT 等。
研發基礎大模型能力和開發產品的同時,阿里云也在加快生態的建設。阿里云透露,通義千問問世后不到三個月,目前已有 30 萬企業用戶申請接入,電力、通信、交通、金融、企服等多個行業的數字服務商,也成為通義千問的首批合作伙伴。
而隨著新的模型和產品陸續發布,阿里云大模型的使用場景和覆蓋行業也在進一步拓展。通義聽悟提供的音頻內容撰寫、檢索、摘要、整理功能,拓展了大模型在企業會議、訪談等場景的使用;而通義萬相的文生圖和圖生圖能力,補齊了阿里云大模型的關鍵拼圖,未來可用于電商、藝術設計、游戲等更廣泛的文創場景。
放眼全球,這樣的全面布局也僅有寥寥數家。
百模之爭,阿里云軟硬兼修穩坐第一梯隊
客觀來說,不論是今天發布的通義萬相,還是更早的通義千問、通義聽悟,阿里云的這些大模型產品本身不是科技產業的新物種。在海外,此前已經有 Whisper、ChatGPT、Midjourney 等功能相近的大模型和應用產品。
國內在大模型領域起步較晚,過去幾個月,國內科技公司、創業團隊紛紛卷入這一賽道,僅僅上海世界人工智能大會幾天,就有數十個大模型亮相,百模之爭的盛況愈演愈烈,但現實仍然很骨感,目前在市面上能打的模型仍然寥寥可數,今天不論是基礎的大模型能力,還是基于大模型的基礎應用產品,全行業仍在極力追趕。
想要在這一領域實現趕超,不論是研發大模型還是開發優秀的應用,都不是「抄作業」這么簡單。比如大模型的研發,就不僅僅是靠算法,或者靠財力簡單堆 GPU 就能實現,這是囊括了底層算力、網絡、存儲、大數據、AI框架、AI模型等復雜技術的系統性工程,需要AI-云計算的全棧技術能力。
而想要打造 ChatGPT 這樣的殺手級應用,也不只是有個好的大模型就能解決所有問題。OpenAI 是通過數年努力,構建起了一條從上游數據、大模型,到產品、生態的完整產業鏈條。不論是在國內還是國外,發展大模型都需要對技術、產品和生態的全方位投入。
阿里云大模型戰略的決策者,顯然意識到了這個問題。過去數月,阿里云并沒有嘗試去打造一個博眼球的、與海外同行差異化的所謂「殺手級產品」。而是全方位地投入技術、算力,打磨算法和基礎產品,發展技術和行業生態。「全面發展不偏科」,也將是接下來一段時間,阿里云在大模型領域堅持的基礎戰略。
這樣的做法不可謂不「奢侈」。而能做到這一點,是因為阿里是全球少數在這幾個領域都有深度布局、長久積累的科技公司之一。
AI算法方面,阿里達摩院是國內最早啟動大模型研究的機構之一。2018 年底便開始投入大模型研發,在中文大模型領域一直處于引領地位,2021年阿里先后發布國內首個超百億參數的多模態大模型及語言大模型,此后還訓練實現了全球首個 10 萬億參數 AI 模型。2022年,達摩院推出集大成的通義大模型,在語言及多模態能力、超大模型、通用統一模型等多個技術維度上,處于國內第一梯隊。
在構建自身技術地基的同時,阿里也早早嗅到了AI生態的機遇,最早提出 MaaS 概念(模型即服務),并牽頭建設了國內規模最大的 AI 模型服務社區“魔搭”,聯動瀾舟科技、深勢科技、智譜AI等機構開源開放 AI 模型,幫助中小企業和開發者降低模型使用門檻,推動AI普惠。
當然在各類大模型遍地開花的背后,算力同樣取到了決定性作用。不夸張地說,徹底引爆大模型的ChatGPT沒有微軟Azure強大的算力支撐,這一輪大模型的浪潮恐怕至少要往后推遲幾年。
而在這項關鍵指標中,阿里云也是全球最領先的玩家之一,作為亞太第一、全球第三的云計算服務商,阿里云擁有國內最強的智能算力儲備,可以源源不斷地為大模型研發輸血。根據官方的信息顯示,阿里云的智算集群可支持最大十萬卡GPU規模,承載多個萬億參數大模型同時在線訓練。基于飛天智算的阿里云深度學習平臺PAI,可將計算資源利用率提高3倍以上,AI訓練效率提升11倍,推理效率提升6倍,深度支持了通義大模型的研發。
強大的云基礎設施能力、深厚的大模型技術積淀,對大模型的研發來說缺一不可。多年的技術積累,是阿里參與本輪 AI 技術浪潮、持續開展技術長跑的重要保障。
顯然,阿里決心已定,一次新的長跑已經開啟。