英偉達加入AI PC主戰(zhàn)場,如何變革端側(cè)AI?
英偉達在AI PC領(lǐng)域感受到壓力
現(xiàn)如今,英偉達的主要收入依舊來自于個人電腦市場,特別是游戲和專業(yè)圖形處理領(lǐng)域。
根據(jù)英偉達2024財年第三季度的業(yè)績,游戲業(yè)務(wù)的營收高達285.6億美元,同比增長超過80%。隨著游戲行業(yè)不斷壯大和虛擬現(xiàn)實技術(shù)逐步提升,個人電腦市場的增長空間仍然龐大。
更為關(guān)鍵的是,英偉達擁有豐富的GPU產(chǎn)品線,能在PC市場上長期保持競爭優(yōu)勢。
這些新產(chǎn)品對生成式AI進行了大量優(yōu)化,為GPU在未來的AIPC領(lǐng)域發(fā)力創(chuàng)造了條件。
雖然PC端GPU在AI的幫助下有很大的發(fā)展機會,但在AIPC的大趨勢中,競爭也比高端GPU更殘酷。
自去年底以來,各大市場參與者對端側(cè)AI充滿期待,眾多市場玩家試圖在端側(cè)AI市場占據(jù)一席之地。
例如,英特爾在其新一代面向PC的Meteor Lake處理器中納入了專門的NPU加速單元;
AMD Ryzen處理器設(shè)有Ryzen AI品牌以作宣傳;
聯(lián)發(fā)科的天璣9300手機芯片內(nèi)部的AI單元集成了所謂的[生成式AI加速引擎]。
相應(yīng)地,眾多OEM廠商紛紛響應(yīng),微軟也期望在此領(lǐng)域發(fā)揮標(biāo)準(zhǔn)制定者的作用。
現(xiàn)在,英偉達不僅要面對AMD和Intel的競爭,還要應(yīng)對蘋果M系列芯片的挑戰(zhàn)。
目前,很多AI大模型開發(fā)者開始嘗試使用蘋果電腦來訓(xùn)練大語言模型。
最新款的Mac Studio頂配版已經(jīng)可以訓(xùn)練擁有700億參數(shù)的LLaMA2模型。
顯然,強調(diào)端側(cè)或本地AI推理的原因在于:
一方面,優(yōu)良技術(shù)與熱點不應(yīng)僅由英偉達獨占;另一方面,本地AI推理具有云計算無法比擬的優(yōu)勢。
這些優(yōu)勢已廣為人知,包括數(shù)據(jù)安全與隱私、延遲需求以及無法確保實時云連接等。
然而,對于AI而言,諸如ChatGPT、Midjourney等面向大眾的云AI相較于本地部署AI模型存在一個巨大劣勢,即無法根據(jù)個體需求進行定制。
若將視野拓寬至消費市場以外,邊緣AI成為必然選擇。企業(yè)至少需要邊緣AI來提升生產(chǎn)力,這也是我們預(yù)測今年生成式AI發(fā)展模式的方向。
對個人用戶而言,無論是開展科學(xué)研究還是提高具體生產(chǎn)力,端側(cè)本地AI具有可定制和更靈活的優(yōu)勢。
例如,使用Stable Diffusion等復(fù)合式模型滿足個性化需求時,云服務(wù)或許會受限。
最新AI PC消費級GPU發(fā)布
在2024年CES特別活動中,英偉達正式發(fā)布了備受玩家期待的RTX40 Super系列產(chǎn)品。
相較于英特爾和AMD的新一代芯片,RTX40 Super系列將在多個方面實現(xiàn)[數(shù)量級]的提升。
①GeForce RTX4080 SUPER:支持4K全景光線追蹤游戲,在圖形密集度較高的游戲中,性能相較于不支持DLSS幀生成技術(shù)的RTX3080 Ti提升了1.4倍。
憑借836 AI TOPS,DLSS幀生成技術(shù)為用戶帶來額外性能提升,使得RTX4080 SUPER的性能達到RTX3080 Ti的兩倍。
②GeForce RTX4070 Ti SUPER:擁有更多核心,顯存容量擴大至16GB,顯存位寬為256 bits。相較于RTX3070 Ti,性能提升1.6倍。
③GeForce RTX4070 SUPER:核心數(shù)量比RTX4070增加20%,使得其僅需RTX3090一小部分功耗即可實現(xiàn)超越RTX3090的性能。借助DLSS3的性能優(yōu)勢,領(lǐng)先幅度將進一步擴大至1.5倍。
據(jù)悉,包括華碩、MSI、聯(lián)想、惠普、三星等在內(nèi)的OEM終端廠商將提供基于RTX4080 SUPER的AI PC設(shè)備。
英偉達在端側(cè)已提前著手儲備
從Turing架構(gòu)開始,英偉達在GeForce RTX GPU中加入了Tensor Core,這是專為加速AI運算而設(shè)計的硬件單元。
在PC端領(lǐng)域,與數(shù)據(jù)中心顯卡相同,均采用Ampere或Ada Lovelace架構(gòu),基于英偉達構(gòu)建的軟件棧。
因此,運用GeForce RTX顯卡進行AI推理顯得順理成章。
英偉達在AI PC實現(xiàn)方面具備堅實基礎(chǔ),其生態(tài)、軟件棧布局以及社區(qū)創(chuàng)新玩法相對較早。
相較之下,英特爾在今年初才開始推廣AI PC概念,實際上已晚于英偉達。
他們計劃在未來幾年推出的H200、B100和X100 GPU,以及每年更新AI GPU的策略。
因為競爭對手如谷歌、亞馬遜、微軟、AMD和英特爾的壓力,英偉達加快了B100和X100的研發(fā)。
為了加速研發(fā),AMD甚至可能取消了他們的MI350X計劃。
英偉達的目標(biāo)可不只是超越英特爾和AMD這些傳統(tǒng)對手,他們還想和谷歌、微軟、亞馬遜、Meta和蘋果這些科技巨頭并駕齊驅(qū)。
他們充分利用了HGX板或服務(wù)器所需的眾多下游組件,如定時器、DSP、光學(xué)器件等。
對于猶豫是否要供應(yīng)英偉達的供應(yīng)商,英偉達會采取又哄又壓的策略。
一方面,供應(yīng)商能從英偉達那接到大單;另一方面,他們也可能面臨被英偉達從現(xiàn)有供應(yīng)鏈中踢出的風(fēng)險。
結(jié)尾:CUDA生態(tài)將在AIPC釋放更大能量
如今,全球有超過1億臺搭載英偉達RTX GPU的Windows PC和工作站。
作為AI大模型時代核心玩家,英偉達通過全棧生態(tài)賦能,讓這些[RTX PC]的AI性能實現(xiàn)翻倍增長。
英偉達創(chuàng)始人黃仁勛認(rèn)為,通過發(fā)明CUDA這種新編程工具和GPU處理器,推動加速計算。
英偉達在技術(shù)生態(tài),特別是25年CUDA領(lǐng)域耕耘,為其在AI時代占據(jù)核心地位奠定基礎(chǔ),這種生態(tài)布局在PC產(chǎn)業(yè)中釋放的能量日益顯現(xiàn)。
今年四季度,英偉達發(fā)布TensorRT-LLM引擎優(yōu)化編譯器,旨在提升大語言模型AI推理性能。
據(jù)官方數(shù)據(jù),TensorRT-LLM助力下,Lambda2大語言模型在H200上的推理能力達到H100的2倍,成本降低,且H200在GPT-3模型上的推理性能比H100提升18倍。
TensorRT-LLM for Windows的推出,使AI大模型在端側(cè)RTX PC中應(yīng)用更佳,滿足用戶各類AIGC需求,提升AI PC體驗。
