阿里云大模型的「陽謀」：全面發展不偏科，一力降十會

阿里云的「通義大模型家族」，加入了新的成員。

7 月 7 日，上海 WAIC 世界人工智能大會期間，阿里云公布了新的 AI 繪畫創作大模型通義萬相，將大模型的模態從文本和語音延伸到圖像，逐步向多模態模型靠近。

阿里云在會上介紹，通義萬相擁有文生圖和圖生圖能力，可輔助人類進行圖片創作，大幅降低圖片設計門檻，可應用于藝術設計、游戲和文創等應用場景，目前已開啟定向邀測。該模型首批上線的功能具體包括以下三種：

文本生成圖像。輸入文字描述畫面并選定創作風格（水彩、油畫、中國畫、二次元等），AI 即可自動生成創作圖片。
相似圖生成。提供一張參考圖像，可獲取內容、風格相似的 AI 畫作。
風格遷移。上傳原圖和風格圖，可自動把原圖處理為指定的風格圖。

輸入一段提示詞，通義萬相生成的 AI 創作圖片

時至今日，大模型將重塑軟件服務行業已經成為行業共識。作為國內最大的云服務廠商，過去一段時間阿里云不斷加大這一領域的技術和產品研發投入，阿里巴巴集團董事局主席、首席執行官張勇甚至親自掛帥，擔任阿里云智能集團的 CEO。

正如張勇在接受采訪時所說，所有行業、所有應用、所有軟件、所有服務，都值得基于新型人工智能技術、基于 AIGC 各方面技術支撐、大模型支撐重做一遍，這一定不僅能帶來創新性的客戶體驗、客戶服務的滿足，也會讓我們的生產范式、工作范式、生活范式發生很多變化。

從阿里云首次公開基礎大模型通義千問，已經過去三個月的時間，阿里云自研大模型的布局，也已初見端倪。

苦練內功多年，通義大模型家族開花結果

無論是Transformer還是Diffusion，都為大模型的研發奠定了基礎。兩大主流框架的問世讓大模型研發的門檻大幅降低，但在這之上的創新則是研發出差異化競爭優勢大模型的關鍵。

根據阿里云介紹，通義萬相是阿里在大模型領域苦練內功多年的產物，其基于阿里研發的組合式生成模型 Composer，后者是一種基于擴散模型的「組合式生成」框架，這一引領性的成果早在今年2月相就已發表，并吸引了國內外行業內人士的廣泛關注。

其基本原理是：先將圖像拆解成不同設計元素（配色、草圖、布局、風格、語義、材質等），再使用 AI 模型將這些元素重新組合，中間使用的元素可以自由編輯。假設有100張圖片，每張圖片拆成8種元素，則全部元素的組合方式有100的8次方種之多，這被阿里云稱為「組合爆炸」，可以給人類設計師生成圖片提供極大的自由度和想象空間。

加上此前已經推出大語言模型「通義千問」和聚焦音頻的大模型應用產品「通義聽悟」，三個月的時間，阿里已經推出三個不同的大模型和產品，模態也已經從對話、文本等文字處理，延伸至音頻、圖像領域。

短時間內在產品層面取得進展的背后，是阿里在NLP、計算機視覺等前沿科研領域多年的布局的結果。

極客公園梳理了阿里大模型的發展脈絡。如下圖所示，阿里最早于2018年底啟動大模型研發，在 2022 年的 AIGC 熱潮到來之前，阿里已經在超大模型、語言及多模態能力、低碳訓練、平臺化服務、落地應用等多個方面，做出了一定的投入和嘗試。

阿里大模型發展時間線丨制作：極客公園

2022 年四季度，ChatGPT 發布后很快掀起了新的一輪 AI 熱潮，阿里也加快了行動步伐，加速將實驗室里的技術產品化，推入市場。

2023 年 4 月 7 日，阿里云正式推出大語言模型「通義千問」，該模型能夠響應人類以自然語言方式提出的各類指令，擁有回答問題、創作文字、編寫代碼等能力。兩個月后，阿里云上線了音視頻 AI 產品「通義聽悟」，后者是接入了通義千問大模型能力的應用產品，用戶可以隨時隨地高效完成對音視頻內容的轉寫、檢索、摘要和整理，比如用大模型自動做筆記、整理訪談、提取 PPT 等。

研發基礎大模型能力和開發產品的同時，阿里云也在加快生態的建設。阿里云透露，通義千問問世后不到三個月，目前已有 30 萬企業用戶申請接入，電力、通信、交通、金融、企服等多個行業的數字服務商，也成為通義千問的首批合作伙伴。

而隨著新的模型和產品陸續發布，阿里云大模型的使用場景和覆蓋行業也在進一步拓展。通義聽悟提供的音頻內容撰寫、檢索、摘要、整理功能，拓展了大模型在企業會議、訪談等場景的使用；而通義萬相的文生圖和圖生圖能力，補齊了阿里云大模型的關鍵拼圖，未來可用于電商、藝術設計、游戲等更廣泛的文創場景。

放眼全球，這樣的全面布局也僅有寥寥數家。

百模之爭，阿里云軟硬兼修穩坐第一梯隊

客觀來說，不論是今天發布的通義萬相，還是更早的通義千問、通義聽悟，阿里云的這些大模型產品本身不是科技產業的新物種。在海外，此前已經有 Whisper、ChatGPT、Midjourney 等功能相近的大模型和應用產品。

國內在大模型領域起步較晚，過去幾個月，國內科技公司、創業團隊紛紛卷入這一賽道，僅僅上海世界人工智能大會幾天，就有數十個大模型亮相，百模之爭的盛況愈演愈烈，但現實仍然很骨感，目前在市面上能打的模型仍然寥寥可數，今天不論是基礎的大模型能力，還是基于大模型的基礎應用產品，全行業仍在極力追趕。

想要在這一領域實現趕超，不論是研發大模型還是開發優秀的應用，都不是「抄作業」這么簡單。比如大模型的研發，就不僅僅是靠算法，或者靠財力簡單堆 GPU 就能實現，這是囊括了底層算力、網絡、存儲、大數據、AI框架、AI模型等復雜技術的系統性工程，需要AI-云計算的全棧技術能力。

而想要打造 ChatGPT 這樣的殺手級應用，也不只是有個好的大模型就能解決所有問題。OpenAI 是通過數年努力，構建起了一條從上游數據、大模型，到產品、生態的完整產業鏈條。不論是在國內還是國外，發展大模型都需要對技術、產品和生態的全方位投入。

阿里云大模型戰略的決策者，顯然意識到了這個問題。過去數月，阿里云并沒有嘗試去打造一個博眼球的、與海外同行差異化的所謂「殺手級產品」。而是全方位地投入技術、算力，打磨算法和基礎產品，發展技術和行業生態。「全面發展不偏科」，也將是接下來一段時間，阿里云在大模型領域堅持的基礎戰略。

這樣的做法不可謂不「奢侈」。而能做到這一點，是因為阿里是全球少數在這幾個領域都有深度布局、長久積累的科技公司之一。

AI算法方面，阿里達摩院是國內最早啟動大模型研究的機構之一。2018 年底便開始投入大模型研發，在中文大模型領域一直處于引領地位，2021年阿里先后發布國內首個超百億參數的多模態大模型及語言大模型，此后還訓練實現了全球首個 10 萬億參數 AI 模型。2022年，達摩院推出集大成的通義大模型，在語言及多模態能力、超大模型、通用統一模型等多個技術維度上，處于國內第一梯隊。

在構建自身技術地基的同時，阿里也早早嗅到了AI生態的機遇，最早提出 MaaS 概念（模型即服務），并牽頭建設了國內規模最大的 AI 模型服務社區“魔搭”，聯動瀾舟科技、深勢科技、智譜AI等機構開源開放 AI 模型，幫助中小企業和開發者降低模型使用門檻，推動AI普惠。

當然在各類大模型遍地開花的背后，算力同樣取到了決定性作用。不夸張地說，徹底引爆大模型的ChatGPT沒有微軟Azure強大的算力支撐，這一輪大模型的浪潮恐怕至少要往后推遲幾年。

而在這項關鍵指標中，阿里云也是全球最領先的玩家之一，作為亞太第一、全球第三的云計算服務商，阿里云擁有國內最強的智能算力儲備，可以源源不斷地為大模型研發輸血。根據官方的信息顯示，阿里云的智算集群可支持最大十萬卡GPU規模，承載多個萬億參數大模型同時在線訓練。基于飛天智算的阿里云深度學習平臺PAI，可將計算資源利用率提高3倍以上，AI訓練效率提升11倍，推理效率提升6倍，深度支持了通義大模型的研發。

強大的云基礎設施能力、深厚的大模型技術積淀，對大模型的研發來說缺一不可。多年的技術積累，是阿里參與本輪 AI 技術浪潮、持續開展技術長跑的重要保障。

顯然，阿里決心已定，一次新的長跑已經開啟。

苦練內功多年，通義大模型家族開花結果

百模之爭，阿里云軟硬兼修穩坐第一梯隊

最新文章