同質(zhì)化的GPU云市場，誰能逃離內(nèi)卷？

2025-06-26 來源：天極大咖秀

103

關(guān)鍵詞： GPU云服務(wù) 百度智能云技術(shù)創(chuàng)新同質(zhì)化內(nèi)卷化

“一個聰明人從敵人那里得到的東西，比從一個傻瓜朋友那里得到的東西更多。”

——哲學(xué)家格拉西安

這句格言，正在AI領(lǐng)域被現(xiàn)實驗證。美國的限制政策總會告訴我們，哪些東西是發(fā)展AI至關(guān)重要的。

2024年10月，美國商務(wù)部再次升級制裁，限制中國實體訪問美國的云服務(wù)，理由是“防止利用美國基礎(chǔ)設(shè)施訓(xùn)練AI模型”。這標(biāo)志著美國對華算力基礎(chǔ)設(shè)施的“雙管齊下”：先斷GPU芯片，再封云服務(wù)，最終目標(biāo)是讓中國AI陷入算力斷崖。

有讀者會問，DeepSeek降低了單模型算力需求，把英偉達(dá)股價都打下來了，怎么AI算力仍然短缺呢？

一方面是總量在增長。正如杰文斯悖論所說，技術(shù)進(jìn)步降低了使用成本時，資源的總消耗量反而會增加。比如燃油效率提高了更省油，但隨著開車變得便宜，人們就會更多選擇開車，結(jié)果導(dǎo)致汽油的總消耗量增加。AI也是如此，模型門檻下降導(dǎo)致智能化應(yīng)用多了，總算力需求也就更大了。

此外，還跟算力集群的利用率有關(guān)。一位銀行總工程師分享到，自家搭建的混合異構(gòu)算力平臺，高峰期算力集群利用率能達(dá)到60%就算優(yōu)秀了，花大價錢采購的算卡資源，很多都被浪費(fèi)或閑置了，加上配套系統(tǒng)與運(yùn)維成本，整個資金投入非常大。

既然自建算力集群買不到卡、成本高，從云端獲取算力的GPU云服務(wù)，就成了絕大多數(shù)企業(yè)用好、用活大模型的最佳選擇。

那么，GPU云服務(wù)作為AI算力的另一根支柱，中國準(zhǔn)備好了嗎？

從云端獲取算力，理想很豐滿，但現(xiàn)實很骨感。GPU云服務(wù)還沒有被企業(yè)普遍接受。一位金融從業(yè)者就告訴我們，整個金融行業(yè)對GPU 云的認(rèn)知還比較模糊，大家習(xí)慣了傳統(tǒng)的硬件采購模式，對云服務(wù)的接受度并不高。

為什么不高？這有兩個原因：

一是同質(zhì)化嚴(yán)重。對比市面上的GPU云解決方案，會發(fā)現(xiàn)算力層、平臺層都高度同質(zhì)化，采用的GPU芯片大同小異，平臺功能也差不多。以至于有人覺得GPU云服務(wù)商提供的軟件沒什么太大價值。結(jié)果就是GPU云市場，目前的競爭主要是卷低價。

二是創(chuàng)新不足。同質(zhì)化并不意味著GPU云服務(wù)的痛點(diǎn)和挑戰(zhàn)都已經(jīng)被解決了，實際上，同質(zhì)化正是創(chuàng)新不足的表現(xiàn)。比如說，隨著大模型的參數(shù)規(guī)模擴(kuò)大，一個千卡集群的百P算力，訓(xùn)一個類Sora大模型就被占滿了，其他客戶需要算力，就得擴(kuò)大集群規(guī)模，但AI芯片是很敏感的，從千卡到萬卡、超萬卡，故障率和運(yùn)維難度也快速上升，怎么保證集群的穩(wěn)定性，不能動不動就中斷重寫checkpoint？

花了大價錢買的GPU卡，結(jié)果有一半都在“摸魚”，怎么讓資源管理更精益，投資不浪費(fèi)？

算卡供應(yīng)鏈的不穩(wěn)定，很多集群的架構(gòu)不同、批次不同，無法合池訓(xùn)練，存在資源墻怎么打破？

國產(chǎn)芯片的適配難，新模型的訓(xùn)練時長比英偉達(dá)方案多出好幾倍，一直沿用的訓(xùn)練推理一體化流程，在異構(gòu)算力環(huán)境下漏洞百出，又該怎么辦？

不難看到，不是行業(yè)用戶不想用GPU云服務(wù)，而是市面上的解決方案都趨于同質(zhì)化，過早開始卷價格。這種情況，與內(nèi)卷化的定義異常契合。就像農(nóng)業(yè)發(fā)展到一個確定形式之后，便停滯不前或無法向更高級轉(zhuǎn)化。

GPU云市場，還處于方興未艾的發(fā)展初期，各行各業(yè)都需要上云用算來進(jìn)行AI訓(xùn)推，有巨大的市場空間等待打開，不應(yīng)過早跌入同質(zhì)化、內(nèi)卷化的泥潭。

但要打破內(nèi)卷，就得拿出有壁壘的差異化解決方案，讓GPU云算力真正降本增效，從而帶動企業(yè)用戶的增長，以及整個GPU云的產(chǎn)業(yè)升級，就像一塊耕地，通過優(yōu)化種植技術(shù)和精耕細(xì)作，進(jìn)一步提高糧食畝產(chǎn)量，從而避免卷入“谷賤傷農(nóng)”的價格戰(zhàn)內(nèi)卷。

向技術(shù)要答案，一直是百度的特點(diǎn)。AI時代，百度智能云也憑借AI基礎(chǔ)設(shè)施和技術(shù)能力在云市場異軍突起，率先點(diǎn)亮了國產(chǎn)三萬卡GPU集群，并且實現(xiàn)了幾乎無損的混合訓(xùn)練能力，集群利用率高達(dá)95%以上。憑借GPU云領(lǐng)域的突出能力，百度智能云成為超半數(shù)央企的選擇。

我們就以百度智能云為例，拆解一下GPU云逃離內(nèi)卷的技術(shù)密碼。

破解GPU云市場的內(nèi)卷難題，必然要改變傳統(tǒng)集群規(guī)模拓展難、故障率高、資源利用率低等問題，那就要從基礎(chǔ)設(shè)施下功夫。

具體來說，百度智能云以技術(shù)為工具，對GPU集群進(jìn)行了三重改造。讓GPU集群從小農(nóng)經(jīng)濟(jì)式的粗放經(jīng)營，變成現(xiàn)代農(nóng)場一樣的規(guī)?；?、集約化、精益化生產(chǎn)模式。

第一重改造：規(guī)?；尫懦f卡集群的澎湃算力。

“深度思考的大模型，業(yè)務(wù)用著不錯，下面要全集團(tuán)推廣，你們盡快給算力擴(kuò)容吧”，進(jìn)入2025年，大模型上量成了IT人的一大挑戰(zhàn)。因為集群規(guī)模擴(kuò)大一倍，故障率能飆升好幾倍，而實際運(yùn)算效率卻出現(xiàn)了邊際遞減。如果集群是由不同城市的小規(guī)模集群互聯(lián)來構(gòu)建的，那資源性能損耗就更嚴(yán)重了，數(shù)據(jù)時延也會讓在線推理服務(wù)的體驗大打折扣。如果AI思考一次就得十幾分鐘，員工用起來不耐煩，CTO怎么能不著急上火。

所以，百度智能云在構(gòu)建規(guī)?；疓PU算力集群，面臨的首要技術(shù)挑戰(zhàn)，就是如何提高集群的穩(wěn)定性，降低故障率，給性能調(diào)優(yōu)。

解題思路，就是軟硬協(xié)同。有點(diǎn)類似于NVlink+ CUDA聯(lián)手，充分釋放N卡算力。那百度智能云靠的就是百舸。百度百舸是專為AI計算設(shè)計的高性能算力平臺，讓多個芯片、多個集群都用“普通話”，實現(xiàn)跨芯片“交流”。

硬件資源層，百舸設(shè)計了一套新的物理網(wǎng)絡(luò)架構(gòu)，就像是城市里精心規(guī)劃的高效路線，新一代的HPN網(wǎng)絡(luò)規(guī)模上支持10萬卡，可同時容納十萬卡并行訓(xùn)練，這就為計算資源的高效運(yùn)行提供了有力保障，讓AI模型訓(xùn)起來更快更穩(wěn)定。

集群組件層，百舸自研的集合通信庫BCCL，可以實現(xiàn)GPU、昆侖芯等標(biāo)準(zhǔn)RDMA設(shè)備的互聯(lián)互通，使得通信效果達(dá)到最優(yōu)。以前沒有統(tǒng)一溝通方式的時候，不同芯片互不打通，常常出現(xiàn)混亂，那協(xié)同工作效率自然就很低了。BCC制定了一套統(tǒng)一的通行規(guī)則，就可以讓芯片高效協(xié)作，加上自適應(yīng)并行策略搜索，自動規(guī)劃出最佳方案，就能讓各種硬件充分發(fā)揮作用，提升多芯混合訓(xùn)練任務(wù)的整體效能。

訓(xùn)推加速層，百舸在AI加速套件AIAK-LLM中構(gòu)建了Accelerator抽象層，屏蔽硬件差異，相當(dāng)于為多個集群開辟高速路，快速通信，讓各種硬件都能充分發(fā)揮作用，高效協(xié)作，由此來構(gòu)建極致規(guī)模、極致高密和極致互聯(lián)的GPU集群。

想象一下，當(dāng)企業(yè)使用萬卡、超萬卡集群時，就像一個源源不斷供給養(yǎng)分的算力土壤，無論是金融機(jī)構(gòu)處理海量交易數(shù)據(jù)，還是運(yùn)行復(fù)雜的科學(xué)計算模型，或者是AI智能體實時響應(yīng)客戶需求，都能游刃有余。

目前，百舸已經(jīng)具備了成熟的10萬卡集群部署和管理能力，在橫跨幾十公里的集群上，百舸可以把單一訓(xùn)練任務(wù)的性能折損控制在4%以內(nèi)，也讓百度智能云成為GPU云廠商中納管超大規(guī)模集群的一個標(biāo)桿。

第二重改造：精益化，PD分離讓AI應(yīng)用隨時在線。

如今，企業(yè)對算力的需求發(fā)生了巨大轉(zhuǎn)變，從過去側(cè)重于模型訓(xùn)練，逐漸轉(zhuǎn)向更注重實時性的推理和后訓(xùn)練階段，有點(diǎn)像城市交通發(fā)展到了一定階段，新路（訓(xùn)練）就建得少了，取而代之的是防止車流擁堵（推理優(yōu)化）。

無論是B端用戶還是C端用戶，如果大模型思考十幾秒才給回應(yīng)，用戶都會不耐煩直接退出，這就是“首token延遲”。為了盡可能滿足用戶“即時反饋”的嚴(yán)苛要求，就迫使模型廠商絞盡腦汁。不能忽略的是，算力基礎(chǔ)設(shè)施的優(yōu)化，就像是把路鋪平、修上護(hù)欄，提升系統(tǒng)的處理能力和并發(fā)效率，從而讓在線服務(wù)像上高速一樣順暢運(yùn)行，大大降低延遲率。

PD分離加速技術(shù)成為云廠商們競相展示的“王牌”，而百度智能云的PD分離式推理基礎(chǔ)設(shè)施，憑借全局優(yōu)化能力脫穎而出。

物理網(wǎng)絡(luò)層面，百度智能云打造了HPN（High-Performance Network）高性能網(wǎng)絡(luò)集群，擁有自適應(yīng)路由算法，像智能導(dǎo)航一樣，避免了大規(guī)模數(shù)據(jù)傳輸時（如Alltoall）的流量集中問題。全新的拓?fù)浣Y(jié)構(gòu)，如同重新規(guī)劃的城市路網(wǎng)，降低通信瓶頸，使帶寬有效性達(dá)到90%以上，讓交換機(jī)轉(zhuǎn)發(fā)延遲大大降低，集群傳輸又快又穩(wěn)。

流量管理層面，百度智能云自研的高性能KV Cache傳輸庫，為高優(yōu)先級隊列預(yù)留帶寬，相當(dāng)于“特殊車輛優(yōu)先通行通道”；分層傳輸設(shè)計支持多層KV Cache復(fù)用，相當(dāng)于潮汐車道，根據(jù)數(shù)據(jù)流量靈活調(diào)整傳輸通道，提升通行效率，并且訓(xùn)推任務(wù)互不干擾，貨車轎車“各走各道”，實現(xiàn)了DCN彈性RDMA滿帶寬傳輸，讓數(shù)據(jù)高效流通。

通信組件層面，百度智能通過Alltoall算子優(yōu)化和動態(tài)冗余專家編排，優(yōu)化計算流與通信流，確保集群中所有GPU通信時間一致，顯著提升吞吐量和性能。

以往企業(yè)使用大模型時，常因算力瓶頸、數(shù)據(jù)傳輸慢等問題受限，如同灌溉管道不暢影響了養(yǎng)分輸送。而百度智能云將網(wǎng)絡(luò)基礎(chǔ)設(shè)施、通信組件與上層業(yè)務(wù)深度融合，精心修建了一套高效的“算力管網(wǎng)”，可以讓數(shù)據(jù)、算力在不同業(yè)務(wù)場景間快速流動，能夠助力各行各業(yè)快速應(yīng)用大模型，解決企業(yè)智能化轉(zhuǎn)型的當(dāng)務(wù)之急。

第三重改造：多元化，一云多芯筑起算力可靠圍墻。

限卡又限云，已經(jīng)是美國遏制中國AI發(fā)展的明牌。完全依賴英偉達(dá)風(fēng)險太大了，國際形勢變化頻繁，供應(yīng)鏈隨時可能被卡脖子，企業(yè)構(gòu)建算力集群，不能押注在單一芯片，會考慮一云多芯。但采購國產(chǎn)芯片分散風(fēng)險，異構(gòu)芯片納管與并行計算效率低，不同類型芯片之間協(xié)同工作困難重重，算力資源浪費(fèi)嚴(yán)重。

在國內(nèi)算卡供應(yīng)緊張的當(dāng)下，讓多樣化芯片能夠協(xié)同訓(xùn)練，意義不用多說?！耙辉贫嘈净煊?xùn)”的能力，也讓百度智能云成為多數(shù)企業(yè)GPU云的選擇，比如長安汽車。

走進(jìn)長安汽車智算中心，就像是一座算力工廠，依靠百舸平臺與長安汽車自研的 “星環(huán)平臺”，將算力資源發(fā)揮到極致。過去，服務(wù)器像低效運(yùn)轉(zhuǎn)的老舊生產(chǎn)線，大量算力被閑置浪費(fèi)。如今，百舸升級的智能調(diào)度系統(tǒng)，集群平均算力使用率飆升至90%，綜合資源利用率提升50%。

再比如某個頭部城商行。對銀行來說，業(yè)務(wù)可持續(xù)性至關(guān)重要，如果用戶訪問不了系統(tǒng)、辦不了業(yè)務(wù)是重大事故。既要自主可控的異構(gòu)算力集群，又要穩(wěn)定可靠的服務(wù)保障，對城商行的基礎(chǔ)設(shè)施提出了巨大挑戰(zhàn)。該城商行與百度智能云合作，通過異構(gòu)平臺在算力感知的情況下，進(jìn)行統(tǒng)一調(diào)度，讓不同芯片不再“打群架”，可以被混合管理、混合使用，從而兼顧了算力安全與業(yè)務(wù)穩(wěn)定。

再到百度自建的國產(chǎn)昆侖芯 P800 大型單一集群里一看，資源利用率更是高達(dá) 98%，讓每一張GPU都物盡其用。

原來，單一服務(wù)器最多容納8張計算卡，而昆侖芯超節(jié)點(diǎn)技術(shù)可以將64張昆侖芯P800集中于單機(jī)柜，并且通信效率堪比單一機(jī)型。跨集群層面，百度百舸打通集群內(nèi)的網(wǎng)絡(luò)墻，實現(xiàn)異構(gòu)芯片互聯(lián)互通。通過accelerator 抽象層，屏蔽底層芯片差異，通過統(tǒng)一接口實現(xiàn)異構(gòu)芯片的“即插即用”；采用自適應(yīng)并行工具，找到最優(yōu)的切分策略，根據(jù)芯片性能自動分配任務(wù)，減少性能損失。最終實現(xiàn)了近乎無損的“萬卡級多芯混訓(xùn)”能力。

在萬卡規(guī)模上，百舸可將兩種芯片混合訓(xùn)練，目前一共支持 18 種以上芯片類型，徹底解決了一云多芯混訓(xùn)的復(fù)雜難題。

如今，經(jīng)過規(guī)?；?、精益化、多元化的三重技術(shù)改造，GPU云已從零散低效的“算力作坊”，升級為高效精益的“現(xiàn)代農(nóng)場”。百度智能云也憑借在GPU云服務(wù)領(lǐng)域的卓越表現(xiàn)，成為頭部廠商中增速最快的云服務(wù)廠商。IDC最新發(fā)布的《中國智算專業(yè)服務(wù)市場報告》中，百度智能云憑借AI解決方案實施服務(wù)，成為行業(yè)第一，領(lǐng)跑市場。

這說明，依靠技術(shù)創(chuàng)新，GPU云廠商可以逃離內(nèi)卷，為行業(yè)和客戶創(chuàng)造差異化價值，讓GPU云服務(wù)在企業(yè)級市場煥發(fā)出充沛的價值。

堅持“技術(shù)精耕”，百度智能云走了一條向技術(shù)要效益、向技術(shù)要價值的良性發(fā)展之路。不僅讓其在GPU云市場建立差異化競爭的壁壘，也為整個行業(yè)從粗放走向精益，從內(nèi)卷走向高質(zhì)量發(fā)展，提供了一個很好的參考樣本。

那我們不禁要問，為什么百度智能云能擺脫內(nèi)卷的漩渦？是什么讓百度智能云有所不同？

一方面，是百度的技術(shù)基因，經(jīng)過多年在AI領(lǐng)域的發(fā)展，百度及百度智能云已經(jīng)打造了一系列高度適配AI業(yè)務(wù)、具有獨(dú)特創(chuàng)新能力的“尖刀型”技術(shù)，有力地解決GPU云集群建設(shè)中的痛點(diǎn)與難點(diǎn)。

另一方面，是百度智能云的發(fā)展路徑清晰，向技術(shù)要答案、不走內(nèi)卷化之路的戰(zhàn)略選擇是明確的，這也決定了百度智能云必須在技術(shù)上下苦功、登天梯。面對需求側(cè)的企業(yè)客戶，以供給側(cè)的高質(zhì)量GPU云服務(wù)，回應(yīng)AI規(guī)模應(yīng)用的復(fù)雜算力需求；面對云市場的競爭對手，以技術(shù)領(lǐng)導(dǎo)力帶動GPU云產(chǎn)業(yè)的高質(zhì)量發(fā)展，避免裸金屬的紅海價格戰(zhàn)，以百舸為核心的能力與服務(wù)，開拓更大的價值空間。

GPU云的未來，不是卷“誰更便宜”，而是看“誰敢創(chuàng)新”。真正的技術(shù)領(lǐng)導(dǎo)者，將贏下這場AI算力革命的主導(dǎo)權(quán)。