對話面壁智能：和知乎的優勢互補，會加速大模型的研發

大模型浪潮下，一家業務穩定、已經上市的中型互聯網公司想要迅速跟上浪潮，應該怎么做？

在自研和收購以外，知乎與面壁智能選擇合作共建大模型，或許為「互聯網+大模型」提供了第三種范式。

今年春天的一個飯局上，知乎 CEO 周源再三追問席上的 AI 專家：「我是不是一定得先通用再垂直（先做通用大模型、再做垂直大模型）？」周源的迫切一定程度上預言了知乎在大模型上的決心。事實上，在 2 月，由 CTO 李大海在知乎內部發起的對面壁智能的投決會更是以閃電速度通過。時隔幾個月，李大海在接受極客公園專訪時表示，這樣的速度是應該的，「蒸汽機已經出現，如果我們是一家馬車公司，這時候應該做什么？」

對于已經上市、在財務上多有考量的知乎來說，自研大模型的短期投入過高、不確定因素大，明顯不是最優解——這也是與知乎相似規模的公司們，在當下同樣要思考的問題。而另一方面，知乎有著中國互聯網世界最優質的語料（是訓練大模型得天獨厚的「養料」）、長期的內容安全合規經驗（能彌補早期創業公司在這方面的經驗不足）以及豐富的云原生經驗（運用到大模型訓練時靈活度更高、運營成本會更低），這些優勢都將助力于一個大模型產品的打造。

在接觸了大量的早期團隊后，李大海發現，由清華 NLP 實驗室的劉知遠副教授所帶領的面壁智能，是國內最早開始訓練大模型的團隊之一。后者在數據標注、模型構建以及 Infra 等方面，都建立了深厚的認知，剛好能與知乎的優勢形成互補。4 月，知乎宣布了對面壁智能的天使輪投資；二者也開始緊密合作，陸續發布了共研的知乎大模型「知海圖 AI」、基于大模型的對話產品「面壁露卡」、以及知乎網站上熱榜摘要和搜索新功能內測。

6 月初，知乎 CTO 李大海宣布兼任面壁智能 CEO。目前，面壁智能正在尋求新一輪融資，公司的短期會聚焦于基礎大模型的核心技術。前不久，極客公園與李大海進行了一場訪談，還原了這場合作背后更多的細節，以及雙方的思考。

李大海表示，在技術加速發展的當下，AGI 到來那一天，以怎樣的技術細節實現、模型是否依舊是當今流行的 Transformer 架構等并不重要。關鍵在于，質變已經發生，而團隊正以最快的速度走在探索的路上。

01 三天發起投決會

極客公園：今年 2 月份，曾傳出王慧文想收購面壁智能，4 月知乎就宣布投資了面壁智能，當時發生了什么？

李大海：ChatGPT 出來以后（2022 年底），我作為知乎的 CTO，是非常關注的。當時知乎很快在行業里面做了廣泛的交流，去研究我們純自研會怎么樣，合作會怎么樣。

很不幸中間遇到了疫情。等到真正和知遠聊上已經是 2 月初了。跟他聊完之后，我們發現知遠這邊的團隊做了非常多的積累，對于訓練大模型有很深的認知，并且還做了很多 Infra 的事情。我叫他內外兼修，有這種成果其實挺不容易的。

這里有個故事。當時我跟知遠是周五聊的，晚上我就召集團隊，讓做架構的同學 Review 模型架構的代碼，以及 Infra、推理的代碼。也讓我們的測評團隊評測 CPM（劉知遠團隊所做的大模型）API 里面的大模型。我們把能拿到的十幾個模型都拿出來去做了評測。評完以后 CPM-Bee 排第四，前三名都是基于 GPT 的。我們也看了代碼，看到代碼該做的優化做的比較細。

結合我自己的訪談、結合這些 Facts（事實），我在星期天的時候（就在知乎）發起一個投決會。這是我作為 CTO 發起的唯一一個項目。

極客公園：王慧文這時候也已經跟面壁團隊在談了？

李大海：他也是知遠的師兄。我們在跟知遠聊的過程中，王慧文就去找知遠，說希望能夠收購他們。他們聊完之后，可能也就隔了一天，知遠就給我打電話，說還是會選擇知乎。

極客公園：你覺得為什么（他會做這個決定）？

李大海：慧文總是知遠的師兄，知遠挺尊敬他的，但是他們想獨立發展。同時考慮到跟知乎合作能夠有一個非常好的場景。

他們想的挺清楚的，挺堅定，我們也很快，推進起來就很快。

極客公園：你和劉知遠最早是怎么認識的？

李大海：我和知遠是在 2016 年認識的，特別有意思。當時知遠還是一個助理教授，也在清華 NLP 實驗室帶學生做項目，當時的 NLP 項目肯定和大模型沒關系了，但是他需要很多優質的語料，而語料大部分都在知乎。

他來爬我們，我們就反爬。所以他爬起來也很累。最后索性就直接來找我，問能不能直接合作？我自己的職業生涯深受 NLP 學術界工作的惠及（從在 Google 做搜索、以及到知乎做推薦），因此我認為也很應該反哺學術界。所以當時也完全沒有猶豫，請我們的律師、法務擬了 NDA（保密協議），讓他簽了一個 NDA，就請工程師給他跑數據，前后就 10 天左右，這就認識了。

這是從 2016 年圣誕節前兩天開始，月初協議簽完，數據就交付了。我們也沒有要什么回報。大家在這個環節就建立了一些連接和信任。直到 2022 年 9 月份，當時參加一個活動，那時候就聽知遠說，他現在自己在做一個大模型創業的事情。

極客公園：這份創業就是現在的面壁智能的前身，對嗎？

李大海：這個創業就是面壁智能。知遠是一個很有技術遠見的學者，最早可以追溯到 BERT 發布以后，當時他已經看到了大模型在 NLP 領域的應用前景，也就是大模型的潛力。

所以在 2019 年的時候，知遠就拉著他們清華實驗室的同學搞了一個「雁棲湖技術戰略會」，帶著 NLP 實驗室里面重要的學生，在雁棲湖一個酒店里開了 7 天會。開完會以后，就決定實驗室里面這些學生，其他的工作都停下，轉頭專門圍繞大模型去做方方面面的各種研究。

到了 2020 年的時候，知遠作為智源研究院的訪問學者，提出說做 LLM 大模型是很重要的事，9 月份在智源立項做了這個事情，11 月在智源三周年年會上發布。當時其實模型不大，只有 26 億個參數，相對今天來說是一個小模型，當時也算大模型。模型生成的能力在年會上放出來的時候，非常好，大家都很震驚。后來繼續再做 CPM1、2、3。

從 2021 年開始，知遠就在拉著實驗室的核心同學在籌辦新公司，到了 2022 年的 8 月份，公司正式成立，名叫面壁。9 月份的時候，公司自主的大模型 CPM-Ant 就發出來了。那時候 ChatGPT 還沒出來。

極客公園：對于 NLP 下一步的發展，學術圈是有一定共識的，但是放在當時，這事很難在產業界引起足夠多的重視。

李大海：討論是肯定有的，當時大家都知道 NLP 往下發展會帶來更通用智能的產生。但是大家都沒有時間表，很難判斷這個事情到底是一年，還是十年以后發生。如果這個事 10 年后才發生，現在投錢干嘛？務實是中國企業能夠在過去的競爭里不斷取得好成績的一個重要原因，但是特別務實，需要詩和遠方的時候，就會慢一些。

本質上還是社會共識不在這點上，其實連美國的社會共識也不在這個地方。（大模型）這件事情做出來，就是 OpenAI 這家公司特別偏執。正好美國一些個人大佬愿意給他們錢，這種寬松的環境下才造就了 ChatGPT 橫空出世。

在 ChatGPT 出來之前，像面壁智能這樣有認知的公司，很難給投資人講清楚，為什么這個地方值得花錢，而且還需要花大錢。

CPM 大模型｜來源：面壁智能

02 資本只是啟動條件，最終要看模型能力有多強

極客公園：你出任面壁智能 CEO 的決定是怎么做出的？

李大海：（今年）2 月中旬以后我們就開始談合作，兩邊團隊就一起共建了。訓練知乎的大模型速度就快很多，4 月份推出了熱榜摘要的功能，5 月份在做搜索和代碼方面的工作，還是很忙的。

做 CEO 其實是大家在推進這個事情過程中，我和知遠最后不謀而合的共識。當時的 CEO 也是劉老師的學生，剛畢業沒多久，在公司治理方面，經驗肯定還是欠缺的。目前大模型領域的競爭本身就很激烈，所以管理經驗的確需要快速補齊。一個更好的 CEO，對于團隊的價值（不言而喻）。

另一方面，從知乎的角度來講，我跟周源都認為大模型非常重要。但知乎畢竟還是一家上市公司，花非常多的資源自己訓大模型不太現實。在這個過程中我們去選擇跟一個創業公司深度共建，利用更少的資源拿到更有競爭力的模型，形成自主可控的競爭模式，這個事情也蠻重要的。因此對我們來說，（由我出任 CEO）也是一個挺堅定的選擇。

極客公園：你個人的意愿呢？

李大海：我個人是意愿特別強烈的。我覺得大模型未來一定是通向 AGI 的可能實現路徑。我們真的是站在了一個人類技術變革的元年，或者起始點。也許在路徑走到一半的時候，中間有些斷的地方，還需要其他的技術銜接上。

但重要的是我們能夠往路上走，以前連路在哪里都不知道。所以這是一個值得工程師有生之年參與到技術發展的大主題。

極客公園：面壁智能是一個獨立創業公司，知乎是一個成熟的上市公司，決策上面臨不同聲音的時候，怎么去處理？

李大海：這是個好問題，客觀來說，我在這里面存在著非常多的協調、溝通，扮演了拉齊大家認知的角色，也感謝知乎，對我的信任非常足夠，在模型建設工作上給了我非常大的決策空間。

這本身就是技術導向的事，大的決策方向確定以后，我也在知乎和面壁共建的過程中花很多精力協調。在具體的協作過程中，有很多非常具體的一線決策需要做，一線的決策有分歧的時候，都是我來拍板，這樣效率確實比較高。

這也是為什么面壁也非常認同我去做 CEO，因為在這個過程中，大家建立了非常深厚的信任和一起共事的伙伴感。

極客公園：互聯網數十年，我們已經看到了很多賽道的火熱和沉寂。你自己在知乎也做了很多年的管理者和決策者，有什么重要的 Learnings（認知）和 Know-how（方法論）？

李大海：首先，歷史確實容易重復，但你仔細看，世界上沒有兩片同樣的樹葉，特質上還是會有差別，大家看到不管是外賣、o2o、打車，這些戰爭看起來都是很資本密集的。

但是今天的競爭，是一個技術導向的事情。最終還是要看你的模型能力有多強，模型能力決定了上層應用的可能性。為什么大家都興奮？（因為）原來很多設想的產品場景，原來的技術做不出來，技術到了一定程度上就能做出更好的東西，所以最內核的東西還是能力，我覺得不管怎么打，這個地方是真刀真槍。

極客公園：不太能夠通過資本就砸出來？

李大海：資本很重要，因為算力、團隊需要支持。但是資本只是一個啟動的條件，怎么樣能夠把真的把核心技術做出來。它還是個技術新模式。

我自己覺得，技術上要足夠的聚焦，想的足夠清楚。另外這個事本身它是一個非常系統化的工作，需要方方面面的能力。

我相信面壁智能在這個地方是有自己的優勢的，我們從 20 年開始就在圍繞大模型的各個方面，建立了成建制的團隊，從 Infra 到預訓練到模型架構再到對齊，還有數據，都有很優秀的人才在團隊中工作。

極客公園：技術強并不意味著這家公司會成功。把技術放在一個正確的位置，包括商業化節奏也很重要。過去你是知乎的 CTO，更早之前你經歷過三家創業公司，結合過去的經驗，你在管理和商業化節奏把控方面有什么心得？

李大海：這是一個很好的問題。我在知乎做 CTO，一直以來最重要的 Learning 就是，技術一定要服務于業務。技術最終是要讓業務變得更好，讓用戶感受到這個產品的價值，你去做一些跟業務無關的，看起來炫酷的技術，但這都沒什么用，其實在我們現在這種公司制度底下是很難（持續下去）。

我在知乎不僅承擔 CTO 的職責，也是董事，參與了知乎近幾年的戰略討論與制定。在我看來，技術和商業化不是涇渭分明的兩件事，其實是相輔相成的，我們需要通過技術拓展更多的業務場景，同時也預期業務場景能夠給模型數據反饋和場景的擴展，形成飛輪。

極客公園：既然你提到了戰略，面壁當下的戰略是什么樣的？

李大海：當下階段大家最關注還是你能拿出一個多好的東西，以及能不能有比較好的商業化。

因此我們其實就聚焦在兩件事情上。第一件事情是模型取得足夠好的進展，這個模型就是 LLM，所以就不用考慮多模態，什么都不用。第二件事情就是基于這個模型是不是能夠取得一些大家覺得還不錯的商業化的進展。就這兩個方向，其他的工作都應該放棄。

面壁智能團隊工作照，一路之隔是智源研究院｜來源：面壁智能

03 優勢的互補性加速模型的研發

極客公園：面壁智能在和知乎合作共建的過程中，怎么把雙方的能力優勢結合？

李大海：面壁會把對大模型的理解，傳遞給知乎的工程師，知乎的工程師們在工程的規范性方面更有經驗。跟知乎的共建，也能夠彌補面壁團隊在模型之外的一些不足。

知乎過去積攢了非常多的云原生經驗，基于 K8S 彈性伸縮，所有的服務都在云上。這些能力也被無縫地應用在大模型的訓練和推理上。整個模型就會變得更彈性，運營的成本會更低，靈活度會更高。

在怎樣保證模型安全上，知乎也給面壁提供了非常多有價值的知識。因為知乎是一個內容公司，知乎在安全與合規方面積累了非常多的經驗。哪些討論是安全的，哪些是不安全的，其實是知乎擅長的東西。這些優勢的互補性加速了模型的研發。

極客公園：雙方目前的合作中，有些基本共識？

李大海：首先第一個共識，我覺得國內現在所有的大模型，以及我們自己，離理想狀態都還是有距離的，我們還是需要一起把模型的能力加強。第二個共識，數據很重要，而且用戶反饋很重要，怎樣盡可能地讓模型上線、拿到更多人工反饋，這塊事情也蠻多的。

極客公園：模型的理想狀態怎么定義？

李大海：我覺得首先證明大模型的水平能達到 GPT-3.5，然后再到 GPT-4。

極客公園：由于監管因素，現在大部分 ToC 的大模型產品都無法上線（自然也無法形成數據循環）。面壁智能目前是否形成了數據循環？

李大海：知乎內部用戶不可見的很多場景中也在積極探索大模型的應用，比如內容理解等場景。大模型在這些場景的落地對數據循環也是有幫助的。

極客公園：目前知乎推出了熱榜摘要、搜索新功能的內測。在將模型能力和知乎場景結合上，目前有怎樣的思考？

李大海：AI 能力是人類能力的擴增，模型能力也要服務于產品場景。在我們的實踐中，要把大模型用好，還是得像過去做產品一樣，要思考這個場景的優化，給用戶帶來什么樣的價值，在這個基礎上，怎么把模型用好。而不是拿著錘子找釘子。

極客公園：提升模型能力，除了更快的數據循環，技術上還有什么挑戰或者難點？

李大海：這個事其實跟搜索挺像，是一個系統化工程，每個環節是個相乘的關系，所有的工作都做到 100%，結果就會很好（當然不可能實現）；如果有 10 個環節，每個環節都只做到 90%，那結果就只能是剛剛及格。

極客公園：也有一種觀點表示，怎么用更經濟的、更小的成本去訓練一個大模型，可以有一些方法。

李大海：這是一個很好的話題，降低成本本來就是大模型訓練中大家都很關心的問題。這需要團隊對模型結構、Infra 都有比較深刻的理解，才有可能做出一些工作，我們也在探索。

極客公園：面壁智能成立的時候，ChatGPT 還沒有發布，現在外界環境已經發生了很大變化，會對公司的思考、戰略有影響嗎？

李大海：是有影響的，快速拿到更多資源，這個事對我們來說很重要。我們也會在融資這個事情上非常積極地行動，盡快拿到更多資源。

極客公園：目前面壁智能的人才團隊，應該是業內最好的之一，在目前激烈的競爭下，會不會擔心被挖角？

李大海：人才競爭一定是要考慮的。給大家一個清晰的愿景，大家共同建設未來的事，并且在把利益都安排好，尤其是在早期，就不太需要擔心核心人員流失的問題。

我自己覺得可能經過一年、半年，大模型公司就會洗牌，這時候人才會進行重組，短期之內，手上的人不會有太大變化。

極客公園：看到面壁智能也已經開始探索一些應用，最近和深擎科技達成了戰略合作。

李大海：我們會出大模型的能力，他們會花更多精力去做產品，在一個具體的領域里進行探索。

我們現在跟很多不同公司討論，有些公司他們更愿意做商業上的合作方式，也有公司就像深擎科技這樣，本身有很好的互信關系，也希望自己能在大模型的工作里面，介入更深一些，我們也比較開放，就能夠建立更深入的戰略合作。

極客公園：為什么沒有選擇在應用場景上投入，做垂直領域的大模型？

李大海：像這種場合，我們投進去肯定會獲得更多的經驗。但是我們現在核心工作還是把技術能力做好，在前端應用方面會有選擇，一定會評估這件事的反饋，對于團隊的能力成長，對模型的反饋如何。我們現在的計劃也是希望盡可能做一些產品化的工作，針對企業的個性化的服務盡可能減少。

極客公園：面壁目前看起來是 toC、toB 兩條腿在走，但聽下來目前好像還是 toB 這個路線在戰略上更重要一些？

李大海：當前是這樣。

極客公園：這會不會是一個思路，用商業化的要求來 drive 自己的產品，因為如果能完成商業化閉環的話，這個產品至少是一個比較好的產品。

李大海：你說的很對。ToB 的客戶對模型質量的要求是很高的，能夠形成閉環是一種好的反饋。

知乎發布者大會，面壁智能 CTO 曾國洋與李大海發布新功能內測｜來源：知乎

04 開源好處很多，但作為商業模式可能不存在

極客公園：作為一家大模型公司，面壁智能同時選擇了擁抱開源，為什么？

李大海：我個人對開源非常感興趣，在北大的時候就聯合發起了 Linux 俱樂部。這么多年公司發展的過程中，觀察下來，我覺得開源本身就是一個很好的商業模式。

比如 PingCAP 在國內開源是做的最好的，TiDB 在開源界影響非常大。我覺得對于底層的技術提供商來說，會通過開源獲得很多收益，其中一個收益是，它能夠通過開源免費獲取非常多的客戶。技術實力能夠通過開源得到驗證，是不言自明的。

從客戶的視角，開源社區有活力的時候，客戶也會更放心。哪怕這家公司自己的商業模式維持不下去，項目在開源界還是有人能夠維護的。有開源的社區在托底的時候，你做 To 的服務商業會很有好處。

極客公園：Hugging Face 會提供一些借鑒意義嗎？

李大海：大家的戰略還是很不一樣，Hugging Face 做了一個類似于模型界的 GitHub。它也是類似于開源的平臺，大家把開源的東西往那個平臺上放，我們開源的模型也會放到 Hugging Face 上，很多人也會下載我們的 CPM-Bee。

但是，這兩個事不太重復，大家生態位不一樣。作為面壁這樣有自己模型的公司，我們也有自己的 Infra 和開源社區，大家在這個地方討論的都是我們的 CPM-Bee，我們的框架，給我們提建議。

極客公園：面壁智能目前在開源社區上做了些什么？收到什么樣的反饋？

李大海：我們在 5 月底的時候開源了一個 100 億參數的模型 CPM-Bee，是允許商用的。在當前這個版本下，確實是可以專門針對一些具體的場景做 finetune（精調）。

現在大約有 30 多家企業向我們申請了商用，陸陸續續還有更多企業。這些肯定是我們的潛在客戶。

像寒武紀、華為升騰會來找我們，適配他們的芯片。這是在 Infra 上，像一些外部的配套工具、配套軟件生態上的收益。生態層面很容易有延伸，大家可能會圍繞你的框架做周邊。

模型能力的收益很難產生。對我們來說，開源這個模型，一是證明我們的能力，二是建立影響力，能夠通過這種方式比較便宜地獲得潛在客戶。

極客公園：開源模型和商業模式之間的邊界在哪里？

李大海：我聽說 OpenAI 可能會把 GPT-3 開源，但我覺得對他而言，開不開源 GPT-3 真的沒有影響。像面壁擁有一系列模型的情況下，把基礎的模型開源出來，讓行業知道我們的競爭力，能夠提升我們的影響力。

未來大家訓練出千億參數以上的高質量大模型，如果很有競爭力，開源的可能性更小。開源與閉源之間會有個界限。在大模型這個領域，現在還沒有人能通過開源做出一個 Google 安卓這樣的系統生態出來，并形成巨大的商業價值，這個事我覺得目前還沒有人做出來。

極客公園：不過確實有人表示希望做這件事。

李大海：這個是愿景。Linux 是一個操作系統，基于 Linux 有可能產生服務的提供商，豐富他們的場景。但大模型不一樣的地方在于，這個技術本身在不斷地快速更新迭代，能力是越來越強的。今年發的，明年其實沒有人會用了，大家都用更新的了。這就需要公司持續提升算力和數據，才能產生更好的東西。

如果想純粹通過開源收服務費，把這個事情閉環起來，我覺得這是跑不通的。Stability AI 就是走純開源的路，但是他們目前閉環肯定是沒有跑通的。

我覺得開源這件事，分兩個層面來看，一方面你去做基礎工作的開源，對于提升公司影響力是很重要的，開源的這條線畫在哪里，其實也非常重要。

極客公園：你覺得開源無法形成閉環的商業模式？

李大海：至少目前，大模型時代沒有看到這種開源方式，對于公司在商業模式上產生收益。我覺得現在沒有人能夠很好地回答這個問題。

因為大模型最核心的是模型能力，如果開源出來了，因為模型能力開源以后，其實大家都得把模型能力拿去用，那個數據還是在內部的。不會在這個基礎之上，把自己變成生態的一部分。最后會形成模型能力的 Copy，這個生態卻形成不了。我覺得這是一個核心的問題。我覺得這種模式也有可能不存在。

安卓會強是因為大家發現它開源了以后，把自己的工作建立在它的基礎上，變成一個完整的生態，這是個正向反饋。

極客公園：繼續往后做，算力會成為問題嗎？

李大海：算力是一個很重要的因素。不管是訓練、還是給用戶提供對應服務，算力要求還是比較大的。又回到剛剛提到，我們在 Infra 上其實有很深的積累，希望接下來能夠在這件事上有比較好的建設。

我們接下來會花一些心思關注怎樣建設 Infra 能跟底層算力的契合度更好，從而顯示出競爭優勢。比如我們考慮，未來怎么建自己的技術機房，能不能有些創新，讓模型訓練效率更高，這些都是接下來要思考的問題。

極客公園：你覺得對于大模型公司來說，短期和長期的競爭壁壘分別是什么？

李大海：短期壁壘還是有沒有沒做過大模型，公司團隊是不是有這方面的經驗，團隊怎么樣。長期來看，還是要建立一個良好的數據反饋，長期肯定會形成馬太效應。比如說 OpenAI 的這種水平，我相信在美國 Google 他們都很難追趕。

01 三天發起投決會

02 資本只是啟動條件，最終要看模型能力有多強

03 優勢的互補性加速模型的研發

04 開源好處很多，但作為商業模式可能不存在

最新文章