<em id="hlgmj"></em>

        1. <em id="hlgmj"></em>

            1. <div id="hlgmj"></div>

              對話王小川:決定大模型的勝負,錢很重要,人更重要

              摘要

              8 月 8 日,百川智能發布了三個月以來的第三個大模型。

              作者 | Li Yuan
              編輯 | 鄭玄

              王小川的百川智能,又發了新的大模型。

              6 月和 7 月先后發布 70 億參數的 baichuan-7B 和 130 億參數的 baichuan-13B 后,百川智能在 8 月 8 日發布了 530 億參數的大模型 baichuan-53B。這家成立不到半年的創業公司,過去三個月里發布了三個大模型。
              「百川智能開源模型中文的效果在國內開源模型是領先的,英文的效果也很好,只和 LLaMA-2 差一點。中英文的效果都能做的比較好,來自于我們對于數據這塊配比設計,包括數據學習順序,這些事情上我們有自己的理解和技術在的。」百川智能的聯合創始人,也是大語言模型的技術負責人陳煒鵬表示。
              而新發布的 baichuan-53B,王小川描述其最大的優勢有兩點:寫作能力好,文科方面博學。而能做到這一點,其中重要原因之一是來自模型在底層應用了搜索的能力,「我們最清楚中國互聯網哪里有最好的數據
              百川智能官網可以申請內測 53B 大模型
              商業上,與前兩代大模型不同,baichuan-53B 沒有開源。王小川說這是因為參數量大(530 億)使用成本較高,所以采取了閉源的方式。但與之前一樣,百川依然把大模型產品的服務對象定在 B 端,稱目前已有超過 150 家企業申請試用。不過他也在會上透露新的計劃,稱年底會發布一個 ToC 的超級應用。
              8 月 8 日 發布 53B 后的媒體溝通會上,王小川和聯合創始人陳煒鵬,接受了極客公園等多家媒體的群訪。不僅回答了新大模型產品和商業化層面的問題,還分享了過去幾個月,他們看到的百川智能和大模型賽道的發展和變化。
              以下是極客公園整理的對話內容。

               

              01

              新的大模型,

              為什么不開源了

               

              問:新大模型的特點是什么?
              答:53B 的模型,跟之前的模型相比的話,參數規模大了很多。在我們自己的評價里,寫作能力是在最好的位置里面。另外我們評測,知識上也比較博學。
              知識可以分為兩種,一種是叫做八卦性的知識,比如「劉德華的老婆誰啊?」,另一種是事實性的知識,比如「原子核多大?」。大家評價我們的模型文科很好,那么這次而言的話文科就更好了。我們的模型現在在文科領域中走到比較前面的位置。
              比如像孩子的名字怎么取,怎么解讀,我們的模型能很好理解語言泛化背后的意義,把各種概念連接,代表了文科里面的抽象、類比還有關聯,我們就做得不錯。
              問:搜索增強是此次發布的 53B 大模型的一個亮點。能具體講講百川智能的搜索技術與大模型的結合嗎?
              答:百川智能在搜索增強系統中融合了多個模塊,包括指令意圖理解、智能搜索和結果增強等關鍵組件,通過搜索結合大語言模型技術來優化模型結果生成的可靠性。
              OpenAI 跟微軟是兩個獨立的實體,對于搜索這塊,它是把搜索當做一個黑盒去使用的這種方式。我們的搜索跟模型的結合是從非常底層的地方就開始融合了。
              我們 53B 的模型,用戶當有 query 進來之后,它不只是調模型去回答,如果發現這些模型里面沒有內在信息的時候,它最后就會去調用搜索。具體調用哪家的搜索,我們目前先不公開。
              問:搜索是一個長期的技術思路,還是現在預訓練大模型方面沒法經常做更新,找一個來補充現在當下能力問題的辦法?
              答:所有的大模型,只要搭建在 Transformer 在這個架構上,就是有幻覺的,就是有非時效性的問題。
              我認為,大模型未來變成一個好的服務,需要有多個技術棧在一塊,而不是從一個模型直接變成一個服務。你剛剛提的問題背后,含義是模型夠好,只是需要一些東西來做補丁。
              我認為可以換個角度,最后的服務,大模型只是其中一種技術。模型它天然就有它的瓶頸,它可能會有提升,但是我認為它本質的地方沒有變。
              模型和搜索會以新的形式融合在一塊,而不是模型替代搜索,類似的問題就是一個坑。
              問:新的 53B 的大模型是一個通用大模型,在垂直領域的表現如何?
              答:我們發布的是通用的版本,但是測起來的話,醫療方面會比其他家好一些。
              問:為什么沒有繼續開源?
              答:模型變大之后沒有走開源的這樣一種方式,因為大家部署起來成本也會非常的高,就是使用閉源讓大家網上調用的方式。在我們的官網,大家已經可以申請內測試用了。在我們的計劃里,我們后續 53B 也不會開源。
              問:閉源有代表商業模式的變化嗎?
              答:開源和閉源不是矛盾的。不管是 7B 還是 13B,還是 53B,都是為 ToB 的行業服務做準備的,往下的話,下個月我們就能開放 API,甚至后面會開始開放一些其他的組件,幫助大家更好地去做后面的對齊,甚至做強化,也有向量數據庫等等。把這些 TOB 的一些獨立的服務優先給做起來。
              問:閉源的好處是什么?
              答:就對于企業和客戶來說,閉源的話對于我們來講,首先是能夠做更大的模型,而更大的模型推理部署的要求很高,開源給企業自己部署使用,企業部署難度也很大。我們認為閉源其實可以提供更簡單的接口,做這樣的一個調用。它的這個指令的精準度方面會更好,能解決更復雜的問題會多一些。
              問:閉源大模型的成本很高,怎么保證競爭力?
              答:我認為這中間有兩件事情,一個是模型效果足夠好,拼的是你的這樣一個模型的能力。第二個,你得把你的這個推理的成本給降下來,這是世界性的難題。我覺得這里面還有很多功課要去做。
              問:閉源大模型的算力如何解決?
              答:通過云廠商實現。包括騰訊云、阿里云都有提供算力。
              問:OpenAI 也經歷過從開源(注:GPT-1 和 GPT-2)到閉源(注:GPT-3 和 GPT-4),百川閉源和開源的標準是什么?
              答:我覺得和大小相關,參數大的部署成本已經開始增加,這種情況下我們就選擇走閉源的這樣一個服務。但這個開閉的話我覺得不是同一個意思。原來「開」說的是把你的這個論文也開放了,代碼也開放了讓別人去復刻你,我們這個開源的目的是能夠提供給大家更好的去用的,本身它就不是同一個詞。
              OpenAI 之前是開代碼的,它的 GPT-1 和 GPT-2 是有論文、有代碼看的。所以我們其實從來沒說要開個論文,開個代碼,我們這邊只是開放模型的能力,讓 B 端都能夠用到,不管是開源還閉源都能用到你的模型能力。這是和 OpenAI 不一樣的模式。
              問:有人認為今天在國內做開源是有一些營銷的目的,你怎么看?
              答:我覺得一定程度上是對的,我認為今天說開源應該有幾層意義。
              第一層的話我覺得就是一個營銷行為。要告訴我行不行,有用沒用,所以我覺得對于一個后發者開源是挺好的一個選擇。這種開源的道路在 OpenAI、LLaMA 面前,也叫后發制人,開源之后是更容易使朋友多多,能夠讓大家迅速去評測了解,所以營銷行為肯定是有的。
              第二層的話,開源有時是為了商業化做儲備的,本身你有了各種用途之后,有了生態之后,那么其他有更高要求,比如對可靠性的要求,可能需要更好的參數的模型,更大的窗口的時候,我手上有能夠能接得上的這種東西,就有了從開源到收費。我認為這件事情在國外是有探索的,在中國雖然之前不成功,但依然是可以借鑒這樣的一個思路。

               

              02

              一家公司

              不可能把賽道做完

               

              問:百川智能在模型訓練方面接下來是如何計劃的?
              答:我覺得現在是個爬坡的狀態。對于模型來說,我們認為有三點很重要:一個是大模型本身的能力,尤其指的是預訓練的能力,一個是搜索的能力,一個是強化的能力,這三個事情就是共同推動大模型的進步。
              從實操角度講,搜索其實效果是最明顯的。強化這件事,是比較有難度的。預訓練其實是在提高模型的綜合能力。
              我們最早講 Q3 就會發布萬億參數,做到中國最好的對標 GPT 的模型,這意味著對于預訓練模型的追求是沒法停下來的,未來還會繼續去做更大的模型。
              但是除此之外,意味著我們對于搜索和強化的技術追求,也會有自己的高度。讓我們既能做萬億參數,后面還有自己的差異化。
              問:百川智能在 B 端和 C 的戰略是什么?
              答:一家公司不可能把所有賽道都做完。在 B 端,我們選擇先做開源模型,B 端企業和中間層的公司,比如做模型二次開發的公司,可以基于這個模型去適用場景。我們的邏輯是我們不去一步做到底,保持足夠開放。
              C 端的話,今年內部團隊開始部署 C 端的超級應用。我們在思考如何追上 GPT-4,思考大模型到底能給 C 端帶來哪些應用,同時我們了解到網信辦發牌照放行的工作今年一定會被放開。
              我們比 OpenAI 在兩頭都走的更遠一點,OpenAI 目前 B 端就是 API 調用,C 端就是 ChatGPT,我們在 B 端更開放,C 端對超級應用有更多的產品定義。
              問:在 C 端的超級應用方面,有什么可以透露的嗎?
              答:在這方面我們有很多自己的思考。
              在這種創業公司里面,我們從搜狗過來,在幾個主流創業公司里面是唯一一家做過超級應用的公司。我們做過兩個,一個是搜索,一個是輸入法,而且這兩個還都是把語言 AI 用到極致。這些語言 AI 和交互式探索里面的各種經驗教訓也都能夠在百川里面能夠繼續去發揚光大。
              問:百川智能為什么能夠做到跑的這么快?
              答:大模型這個事情是相對綜合的事情,涉及到幾個環節。
              第一個環節你的數據從哪兒來,大家都知道互聯網的網頁可能是萬億量級的,但是實際是用到模型去訓練大概也就是百億的量級。我們之前這個團隊背景是做了很多年的搜索,所以我們對整個中國互聯網里面哪里有好的數據,我們這個團隊肯定是最清楚的,怎么把這些數據收集回來,并且把它的質量做好,識別出來,這些我們其實以前有一個很強的積累和方法論。大家現在關注到現在大量的語言模型除了中文的數據也好,英文的數據,我們以前在翻譯這塊也有很強的積累,怎么樣能整合中英文的數據,這塊我們以前做過很多相關工作,有一些積累。
              第二個問題,對于這個模型本身的訓練,我們之前在 7B 也發布過,我們整個并行策略調校的水平非常好,在國內也是比較領先的水平。
              剛才提到整個模型的訓練其實是一個相對復雜的系統,涉及到數據、訓練框架、模型本身,需要對整個復雜系統系統有很強的經驗,這些我們之前都會有一些積累。
              我們做這個事情本身有很強的號召力,除了以前來自搜狗的人才儲備以外,也有很多來自頭部企業厲害的同學加入我們團隊,這個可能是構成了我們為什么能跑得很快的最主要的原因。
              問:百川智能打算開始進行商業化嗎?
              答:我們并沒有將我們發的頭兩款大模型商業化。像智譜、MiniMax 這樣的公司,更早參與了大模型創業,在我們之前已經干了幾個月甚至一年的時間,有他們市場的影響力。我們作為后發者進入到市場,所以開源對我們來講的話,我們首先是能夠先給中國的商業生態做一些貢獻,填補一個空白,也是展現我們的一個技術實力。我們相信后面的技術會發展非常快,雖然我們開源了,只要持續不斷有后面的這種技術迭代,就會有自己的商業模式出現。
              7 月 28 日,洪濤入職百川智能負責商業化方向,我們商業化的工作也會開始開展起來。一方面會借助現在的開源引擎,但也有一些更大參數的模型。除此之外,背后的一套組件也在研發當中,能夠統一的去做提供部署。
              今天在這個體量的公司在今天這個時代里面,我們認為多條線里面都有很多機會,我們對自己團隊過往的能力也好,經驗也好,是有信心的,能同時打好幾場仗:首先模型方面,我們到現在發了三款模型,感覺立住了。其次團隊也是在不斷的這樣的一個擴充過程當中。到了我們成立的第 100 天 我們有 100 個人。到今天是 113 個人,基本就一天招一個人的速度往下走,速度可能還會再抬頭。
              在這個中間我會很重視,你這個組織是否有足夠多優秀的人才,有良好的這種組織能力和分工。有這個能力,哪場仗都能打。
              問:百川智能現在的人員構成是什么樣的?
              答:技術人員大概占總人數 70% 到 80% 吧,來自搜狗的舊部大概占到 30%-40%。
              問:百川智能更喜歡什么樣的大模型人才?
              答:比較傾向于兩種類型的,一種是本身對于解決復雜問題,有很強的問題拆解能力。然后是對于算法或對技術有很好的技術審美,也就是他本身要有很強的判斷力,這確實是一個非常重要的點。尤其在算法這個領域,我們每天都會有很多新的 idea 出來,那對于整個算法的思考是有體系的,有沒有一個很好的技術審美,其實是一個非常重要的事情。
              第二種,我們會比較傾向于說這個同學他本身的技術能力要很扎實,包括他的 coding 的能力,或者是寫算法的能力,他本身的技術基本功是非常扎實的,對于我們要做的這個事情,他聽到后兩眼放光,覺得是非常向往、非常渴望這種狀態。那我覺得這樣的人對我們來說,是能夠非常好的融入我們的團隊,一看就知道和我們是一路人。
              問:大廠出身的人,為什么會選擇百川智能這樣的創業公司?
              答:我覺得大廠小廠的人,他們都是技術人員。他們選擇百川智能有各種原因,首先第一個是有技術理想的,留在大廠里可能沒有機會實現,比如做的東西沒被選中。其中也有一些是因為組織架構的原因,給他的崗位和工作能力不能匹配。
              大廠其實是有人才的,但是甄別人才的能力因為各種各樣的原因總是會有欠缺,甚至有動作的走形。所以一些人才就會覺得創業公司里可能會有更好發揮自己能力的機會。
              而之前創業公司的問題,是有些工作是創業公司做不來的,你的規模不夠,空間不夠大。但這件事(大模型),有足夠的吸引力,空間也足夠大,那么這個工作機會對大廠人才也就有足夠的吸引力。
              問:今天我們的成本中,算力要占到多大的比例?
              答:訓練階段算力成本是挺貴的,不同廠商情況可能不一樣,行業里 40% 以上可能都得給算力了。我大概猜一下,百川可能到在 40% 到 70% 之間,最后算進來,是包括了 GPU 網絡聯通。
              問:百川現在自己做模型也打算做應用,既做運動員也做裁判,會不會造成一些機會的喪失?
              答:現在我覺得不嚴重。我覺得現在還算不上是一個裁判員的身份,我覺得這個例子還沒法完整復制過來。今天我覺得還沒到那樣一個狀態,就是 ToB 的話你是足夠開放去做,然后 C 端你就選一兩款自己進行。實際上英偉達也是各層都有,你看它既在里面去做底層的 GPU,也會做一體的云服務。所以我認為在各層里你分開去做會有自己的競爭力,今天(大模型)商業上講還不是這個裁判員的問題。
              問:百川智能的融資狀況如何?
              答:融資非常順利,但現在還不能公布情況。

               

              03

              關于大模型行業

               

              問:如何看待現在中國的大模型行業整體的狀態?
              答:現在中國的大模型行業,從現象上看,確實大家都在下場在做,每個有技術理想的企業都一定要自己試一下這件事情。所以其實這樣就卡的資源不夠用。
              今天不管是十家、百家、千家,最后一定要看兩件事,第一個是否能拿出足夠好的 AGI 來,像 GPT3.5、GPT4 去比肩,這件事情大家有相應的距離,我們現在也沒做到,往下看今年內有哪些企業能達到 3.5 甚至逼近 4 的能力,現在沒有看到之前你很難去判斷。二,是否能做出超級應用來,大模型很燒錢,是否能夠存在一個超級應用。這兩個事情目前還都還看不清。
              階段性能看清的地方就是開源這件事情,大家能夠自己做評測,在這個領域里面的話,中國這方面是可能優先達到一個國際水準的。第二的話就是我們的這種超級應用有可能會比美國快,中國做這種科學問題會差一點,但做應用問題確實是我們的強項。
              我到美國去之后發現他們這邊做技術確實得不錯,但是做應用能力實在不怎么樣。很多工程師并沒有應用的經驗。我去之前,我當時提到的是在理想上比 OpenAI 慢半步,在落地上快半步。我回來之后改了,「理想上慢一步,落地上快三步」。
              他們滿眼放光跟我講,他們在設計怎么把 1000 萬顆 GPU 聯在一塊做模型架構。我們知道今天訓 GPT-4 大概是 2 萬顆 GPU,GPT-5 可能是 5 萬顆。他們考慮設計 1000 萬顆 GPU 做連接結構,你跟他們拼理想這個是沒完沒了的。你說解決幻覺問題,他們說模型大 10 倍幻覺就下來一些,他們走的不是往落地方向,OpenAI 就是這樣的情況。你跟著它走是不夠的,因此理想上確實拼不過,但是落地上我們跑得快。
              問:創業型公司在這場這個里面該怎么玩?錢在這里面有多重要?
              答:今天我們看到一個情況,大家一起步公司就幾億美金,今天就 5 億多美金。第二輪可能就是 10 億美金的狀態,其他幾家大公司都是這種狀態,所以這種競爭不是小清新,三兩個優秀的小同學坐在一塊,給你 3 年、5 年的時間。你要迅速進入到大的戰役里面。一方面創業公司拿到很多錢去互相卷,還有大廠之間的競爭,大廠有更多的錢,更多的人,更多的算力進來,這種情況下迅速形成一個戰斗力。
              中國跟美國不太一樣,美國通用大模型閉源模型其實頭部幾家已經定下來了,OpenAI,Google 都有一張門票,在美國做開源大模型做通用已經沒有懸念,投資也不會再去投。但是在中國不是,中國誰做最好的大模型現在并沒有結論,有一個大家爭取的機會,而且還不一定落在大廠里面。
              決定勝負的話,我覺得錢是非常重要的一件事情,但最終決定能力的還是人才團隊,尤其包括人的能力和組織能力。大廠錢多,人多,算力多,但組織效率不一定夠好。創業公司組織效率可能好,也可能不好。
              像我們,管理過 3000 人的公司,現在變成 100、300 人,非常容易把效率提上去。因此組織能力對我們來講不是挑戰性的事情,同時也有大廠相對完整的經驗,如果在錢上能保證的話,我們的能力還是很強的。
              問:現在大模型有同質化的趨勢,我們怎么看待這個問題,有沒有一些規避的措施?過去說有五張船票,現在還有幾張?
              答:我覺得現在階段性的會有同質化的問題,目前還是在一個叫做分型復刻的階段。在這種情況下,你對標的東西就只有一個,就是 OpenAI,那么不可避免的行業會出現同質化。這個階段過了之后,就開始看你的技術里是否有獨有的能力。像我們對搜索的理解,對強化的理解,我們的模型會逐步走出差異化來,這需要一個時間,那更多地方就是在應用里面,那大家就千差萬別了。
              所以同質化這個事情,今天還是蠻正常的一個現象。才剛開始,那你肯定是向別人先學習,然后才能發揮自己的東西。人生就叫以正和以奇勝,對吧?
              船票的話現在依然還是有 5 張,如果只有 2 張我們也會在這個船上。這 5 張并不扣除大公司,創業者是沒有 5 張船票的。
              問:現在很多應用開發者都是同時使用多個大模型,這個會是長期趨勢還是短期現象?
              答:現在我倒是覺得這種現象是中國特有的比較好的、比較開放的狀態,互相之間沒有原來的「二選一」這樣互相排擠,這是一個好的狀態。
              第二是大家現在對于模型的理解都還不是很多。這種情況下,多試幾家的也有;非要自己下場試一下的也有。現在行業還沒有到一個這個大家形成基礎共識的狀態,而到未來的時候我覺得慢慢會分層,就各自專注的自己的事情,現在還是一個叫做「群魔亂舞」的狀態當中。
              問:怎么看大模型在 B 端市場的前景?
              答:我認為 B 端天花板不高,但確定性是挺清楚的,就是確實很多企業都有這樣的一個需求,只是它的對接門檻很高,每個企業有自己的私有數據跟你怎么連。所以如果你沒一個好的合作模式的話,最后可能把雙方都拖垮掉。一個是信任的問題,一個是 ToB 到后面的一個研發成本會非常高。
              我們是需要有中間層的企業來做服務的,既有 B 端的真實場景,也有中間層做服務的,也有后面是做模型的,應該是三層這樣一個結構。因為 B 端公司很多技術能力不強,所以中間有各種集成商,有后面的大模型服務商。在銀行行業,在保險行業,都有大量中間的公司在給提供服務,這不是個技術問題,而是要能夠去銜接行業客戶的需求和客戶的銷售。
              問:如何看待開源和閉源?
              答:今天大家討論開源閉源的話,它不像是安卓或者 iOS 一樣的,是二選一的,手機里要么裝安卓,要么裝 iOS。而今天的話,這個從 ToB 的角度里面是開源、閉源都需要,不是這樣的競爭關系。
              我們認為,未來 80% 企業會用開源的模型,在自己的數據里去優化。因為你閉源的話,這個東西沒法對產品做特別好的適配。而且開源模型可以做的非常的小巧,因為在很多產品里面并不需要大模型去做數學題。實操里面的話,其實開源模型在很多地方是非常好用的。
              我們剛剛提到本身在做 7B、 13B 的時候,收到過一些企業的反饋,他們認為它們已經比閉源的 GPT 更好用了。可以看出,不同產品需要不同的儲備,但我們覺得不是一個競爭關系,而是在不同場景有互補的關系。
              我們更多地關注是 B 端怎么做,C 端怎么做的問題,而不是把問題停留在開源和閉源上。我甚至認為這個問題也不是現在大家想不明白,難以形成共識的地方了,這個問題的共識已經在形成當中了。
              *頭圖來源:百川智能
              本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

              最新文章

              極客公園

              用極客視角,追蹤你不可錯過的科技圈。

              極客之選

              新鮮、有趣的硬件產品,第一時間為你呈現。

              頂樓

              關注前沿科技,發表具有科技的商業洞見。

                  <em id="hlgmj"></em>

                    1. <em id="hlgmj"></em>

                        1. <div id="hlgmj"></div>

                          91麻豆精品国产91久久久久久