爱看影院,天美传媒97a∨,天堂av,国产精品免费大片

爆火的DeepSeek一體機,更多滿足的是情緒價值
2025-03-28 23:19

爆火的DeepSeek一體機,更多滿足的是情緒價值

本文來自微信公眾號:甲子光年 (ID:jazzyear),作者:王藝,編輯:栗子,題圖來自:甲子光年

文章摘要
DeepSeek一體機因政策推動、開源策略及企業(yè)本地化部署需求爆發(fā),成為政企部署大模型的熱門選擇。國產(chǎn)芯片一體機雖受政策支持,但性能不及英偉達方案,存在技術(shù)優(yōu)化與成本平衡難題。市場呈現(xiàn)央國企偏好國產(chǎn)、民企傾向英偉達的分化格局,廠商競爭聚焦軟件調(diào)優(yōu)能力,未來需突破算力密度與生態(tài)建設(shè)實現(xiàn)產(chǎn)業(yè)升級。

? ??市場爆發(fā):政策推動+開源策略+資本炒作,促DeepSeek一體機成政企剛需

? ??客戶分化:央國企選國產(chǎn)芯片保安全,民企用H20芯片追性能

? ??性能對比:英偉達H20單機跑滿血版,國產(chǎn)芯片需多機部署且吞吐落后

? ??廠商混戰(zhàn):服務(wù)器商/集成商/軟件公司集體入局,比拼軟件調(diào)優(yōu)能力

? ???政策驅(qū)動:信創(chuàng)政策催生百億市場,國產(chǎn)芯片廠商短期受益但技術(shù)存短板

? ??未來挑戰(zhàn):突破算力密度與互聯(lián)技術(shù),實現(xiàn)MoE模型高效集群部署成關(guān)鍵

“至少有一億元的AI推理一體機硬件需求沒有被滿足。”“DeepSeek出來之后,云服務(wù)廠商的電話已經(jīng)被打爆了,全都是咨詢DeepSeek一體機的。”


這是“甲子光年”最近聽到最多的兩句話。


DeepSeek在2025年春節(jié)期間火出圈后,掀起了中國企業(yè)本地化部署的風潮,也帶火了一款新的產(chǎn)品——DeepSeek一體機。


怎樣形容DeepSeek一體機的火爆程度呢?


這么說吧,去年我們在很多科技產(chǎn)業(yè)大會上看到最多的產(chǎn)品是機器人。而今年初在一些科技產(chǎn)業(yè)大會的外部展覽區(qū),機器人的展位有所減少,放眼望去,大片映入眼簾的,是各家廠商推出的DeepSeek一體機。


一體機產(chǎn)品,圖片來源:“甲子光年”拍攝


也有服務(wù)器廠商的工作人員告訴我們,從春節(jié)期間DeepSeek火出圈到現(xiàn)在,每天都有鋪天蓋地的電話打進來,都是來咨詢一體機或者本地部署DeepSeek大模型的,有時候銷售和售前要一天拜訪三波客戶去做交流和講解。


交易市場的火熱還只是其次。在風起云涌的二級市場,甚至出現(xiàn)了“一體機概念股”,首都在線、天璣科技、恒為科技、紫光股份、云從科技、廣電運通等公司的股票都在近期迎來了不同程度的上漲。


為什么在短時間內(nèi)出現(xiàn)了DeepSeek一體機的大爆發(fā)?服務(wù)器、云廠商、芯片、軟件、集成商……各個領(lǐng)域的科技企業(yè)都推出了一體機,它們之間的差別是什么,客戶應(yīng)該怎么選購合適自己的產(chǎn)品?搭載了國產(chǎn)AI芯片的一體機跑滿血版DeepSeek模型的效果又究竟怎樣?


一、DeepSeek帶火一體機產(chǎn)品


所謂“一體機”,指的是一種專門為人工智能大模型應(yīng)用和部署而設(shè)計的集成計算設(shè)備,通常包含中央處理器(CPU)、圖形處理器(GPU)、存儲器、操作系統(tǒng)、AI平臺軟件及各類模型算法等軟硬組件,可以看成是“大模型+服務(wù)器”的“1+1”產(chǎn)品。


換句話說,它是一個“AI工具箱”,里面塞滿了硬件、軟件和行業(yè)專用工具,具有數(shù)據(jù)本地處理、部署周期短、成本低等優(yōu)點,非常適合政府、銀行、醫(yī)院等對隱私要求高的行業(yè)和單位。


其實,一體機并不是新的概念,早在DeepSeek爆火之前,就有大模型一體機產(chǎn)品被部分政府和企業(yè)應(yīng)用在了私有化部署等場景中。相較于大型的服務(wù)器集群,一體機成本更低、操作更便捷,也更適合中小企業(yè)或個人等小規(guī)模的業(yè)務(wù)需求。


既然一體機并不是一個新東西,那為什么DeepSeek發(fā)布后,一體機這一產(chǎn)品才迅速躥紅呢?這與DeepSeek-R1模型本身的技術(shù)優(yōu)勢、政府號召、開源策略和資本市場的推波助瀾密切相關(guān):


DeepSeek-R1發(fā)布后,由于它的MoE架構(gòu)、MLA算法大幅降低了模型對算力的需求,加之不同版本蒸餾小模型的推出,讓模型部署變得更加容易,無需花重金購置服務(wù)器集群就能將模型部署到本地,極大提升了全民部署DeepSeek的熱情;


自上而下的號召也很關(guān)鍵。春節(jié)后黨政機關(guān)引入DeepSeek的需求井噴,北京、廣州等多地政務(wù)系統(tǒng)宣布全面啟用DeepSeek大模型,首批“AI公務(wù)員”正式上崗,覆蓋文件處理、政策咨詢等場景;


而在2月19日國資委召開“AI+”專項行動深化部署會后,大模型的本地部署成為剛需,一體機的本地化部署方案恰恰有效解決了金融、政務(wù)等敏感領(lǐng)域的數(shù)據(jù)合規(guī)問題,于是多家央國企紛紛加入一體機采購的浪潮;


與此同時,DeepSeek的模型是開源的,企業(yè)可基于其開發(fā)定制化的解決方案,結(jié)合國產(chǎn)芯片構(gòu)建軟硬一體的生態(tài),DeepSeek一體機讓想做數(shù)字化轉(zhuǎn)型、但技術(shù)能力欠缺的企業(yè)無需支付高昂的模型授權(quán)費、通過簡單的部署就能用上大模型;加之二級市場DeepSeek概念股大漲,眾多企業(yè)為了自己的股價和估值,也紛紛采購一體機部署DeepSeek……上述種種因素,都推動了DeepSeek一體機的爆發(fā)。


我們預(yù)計,兩年內(nèi)、在百人以上的組織里,大模型的滲透率會達到40%-50%,而一體機會是他們最優(yōu)先的選擇。”公眾號“算力百科”主理人、深圳未來智算科技有限公司創(chuàng)始人陳嬌嬌對“甲子光年”表示。


究竟有多少公司在做一體機呢?目前除了互聯(lián)網(wǎng)公司和做硬件的廠商,那些原來做集成商的、做軟件的、做組裝廠的、做交換機的企業(yè)也都推出了一體機。“只要是IT行業(yè)相關(guān)的公司都在做,即使不是自己研發(fā)的,也會OEM一個。”陳嬌嬌表示。


從分類上看,目前,市面上的DeepSeek一體機分為推理一體機訓推一體機兩大類。


推理一體機主要面向需要高效推理計算的企業(yè),內(nèi)置DeepSeek-R1滿血版671B、70B、32B等不同尺寸的模型,價格從幾十萬到數(shù)百萬不等,適用于對數(shù)據(jù)安全性要求較高的企業(yè);


訓推一體機則適用于需要進行模型訓練和推理的場景,其價格更高、主要用于預(yù)訓練和微調(diào)大模型,能夠支持更復(fù)雜的訓練、推理任務(wù)。根據(jù)硬件配置和軟件調(diào)優(yōu)程度的不同,價格在幾十萬到幾百萬不等。


“甲子光年”根據(jù)公開資料,對部分推出DeepSeek一體機的廠商做了統(tǒng)計,情況如下所示:


DeepSeek一體機發(fā)布情況,制圖:甲子光年


根據(jù)浙商證券研報,目前,已有23%的央企有大模型部署,未來大模型的普及率預(yù)計會進一步增加;而隨著DeepSeek帶動大模型的快速部署需求,一體機的部署占比有望持續(xù)增長,浙商證券預(yù)計,2025—2027年,一體機采購量將分別達到15、39、72萬臺,DeepSeek一體機在央國企的市場空間有望達到1236、2937、5208億元。


二、央國企要國產(chǎn),民企要H20


那么,這些廠商推出的一體機都賣給誰了呢?


政府和央國企顯然是這一波DeepSeek一體機上新潮的最大客戶。


近年來,中國持續(xù)推進信創(chuàng)產(chǎn)業(yè)和國產(chǎn)替代戰(zhàn)略,要求關(guān)鍵領(lǐng)域(如政府、金融、能源等)優(yōu)先采用國產(chǎn)技術(shù),降低對外依賴。DeepSeek作為本土AI企業(yè),其產(chǎn)品天然符合這一政策導(dǎo)向。


加之政府和央國企涉及大量政務(wù)數(shù)據(jù)、民生數(shù)據(jù)和國家基礎(chǔ)設(shè)施數(shù)據(jù),對數(shù)據(jù)安全和隱私保護的要求極高,DeepSeek一體機的本地化部署和封閉式架構(gòu),不僅能滿足政府和央國企對數(shù)據(jù)和隱私的合規(guī)要求,而且開箱即用、無需雇傭龐大的運維團隊,因此成為了政府和央國企的首選。


有數(shù)據(jù)統(tǒng)計,截至2月21日,已經(jīng)有45%的央企完成了對DeepSeek模型的部署,而這其中不少企業(yè)都選擇了一體機的方案。


從不到一個月的時間內(nèi),如此高比例的央企實現(xiàn)了對開源模型的快速覆蓋,這一速度在過去是難以想象的。


除了政府和央國企,民營企業(yè)也是部署DeepSeek大模型的重要玩家。


由于百度、阿里等互聯(lián)網(wǎng)巨頭自己就是云服務(wù)商、自己就售賣一體機產(chǎn)品,因此購買一體機的多是有資金實力的大型民企中的個別業(yè)務(wù)部門,或者有數(shù)字化轉(zhuǎn)型需求的中小民營企業(yè)。


“購買我們一體機的金融類客戶比較多,因為一體機首先就主打線下私有化交互,而這些客戶首先強調(diào)的就是數(shù)據(jù)不出域。除了金融類客戶,政務(wù)類客戶和之前的頭部大KA也是購買一體機的主力客戶。”京東云PaaS業(yè)務(wù)部產(chǎn)品負責人賀皓告訴“甲子光年”。


“甲子光年”了解到,在打算購買一體機的企業(yè)中,大型央國企的預(yù)算較高,一般在200萬-500萬之間;中小型政府機關(guān)、央國企和民營企業(yè)的比較容易批下來的預(yù)算一般在100萬以內(nèi);而在這100萬中,又根據(jù)預(yù)算金額的不同,分為50萬-100萬、10萬-50萬、10萬以內(nèi)三個區(qū)間。


目前,客戶預(yù)算集中在10萬-50萬的區(qū)間內(nèi),這與客戶對部署大模型“嘗鮮”的需求和企業(yè)的預(yù)算審批制度高度相關(guān)。


有的部門,領(lǐng)導(dǎo)手里的權(quán)限就是50萬,領(lǐng)導(dǎo)簽個字這50萬就能批出來,所以一體機廠商大部分也都是圍繞這個價格來定價的。”陳嬌嬌說。


而具體到模型的選擇上,90%以上的客戶都在咨詢滿血版DeepSeek大模型的一體機部署方案。


“首先從實際效果來說,滿血版肯定是最優(yōu)的;其次,有一小部分客戶有明確的業(yè)務(wù)使用場景,因此他們希望先部署滿血版,有了滿血版模型之后再去研究能對接什么樣的應(yīng)用場景。比如金融機構(gòu)之前一直在做投研分析報告等東西,他們其實原來也是用大模型做,DeepSeek出來之后,他們就想用滿血版來看一下,驗證一下DeepSeek滿血版的性能和效果是不是更好。”賀皓說。


盡管人人都想部署滿血版,但不是人人都有實力買得起滿血版。“甲子光年”從各一體機廠商的市場和銷售人員處了解到,在廣大的中小企業(yè)客戶中,成單量最高的是70B的模型。


預(yù)算有限肯定是首要原因。但這其中還有一個原因是,絕大多數(shù)企業(yè)還處于對大模型的“試驗”和“嘗鮮”階段,70B的模型(下文簡稱70B)足以應(yīng)對辦公場景的需求。其中,知識庫、辦公助手、智能客服等是最為高頻的應(yīng)用場景。


“70B是性價比最高的,企業(yè)如果直接部署了滿血版,萬一這個東西不好用,硬件成本怎么回收也是一個問題。而70B可以直接擴容到滿血版(通過增加機器臺數(shù)的方式)”潞晨科技市場經(jīng)理趙一飛表示。


四通集團產(chǎn)品經(jīng)理戴歧航也表示,部署滿血版大模型的價格對絕大多數(shù)中小企業(yè)來說還是太高了:“70B買我們的設(shè)備的話20萬可以,671B的話要120萬以上。針對一般企業(yè)辦公類的使用場景,70B足夠了。”


企業(yè)選擇一體機,最看重的是其內(nèi)置的GPU芯片


由于DeepSeek-R1模型的推理只激活671B參數(shù)中的37B參數(shù),降低了對算力的要求,但其大規(guī)模并行的架構(gòu)對芯片的顯存提出了更高的要求。因此算力被“閹割”、但有著較大顯存和帶寬的H20成為了運行DeepSeek推理模型最有性價比的選擇——兩臺96G版本的8卡H20一體機就能運行滿血版大模型。


這也是DeepSeek模型火出圈后,H20的市場行情從“賣不出去”轉(zhuǎn)為“供不應(yīng)求”的原因,一臺96G版本8卡H20服務(wù)器的市場價格也從原來的100萬上升到了110萬左右。


英偉達部分顯卡的參數(shù)規(guī)格,制圖:甲子光年


2025年2月,為了應(yīng)對DeepSeek帶來的大顯存需求,英偉達“趁熱打鐵”,推出了H20的升級版本——擁有141G顯存的H20。新升級的H20不僅顯存容量更大了,而且顯存帶寬也從原來的4TB/s提升到了4.8TB/s,能夠?qū)崿F(xiàn)更快的數(shù)據(jù)傳輸速度。


相較于原來96G顯存版本的8卡H20一體機需要兩臺才能跑DeepSeek滿血版大模型,141G顯存版本的8卡H20一體機只需要一臺就能跑滿血版,極大降低了企業(yè)的模型部署成本。搭載了H20芯片的DeepSeek一體機也成為了絕大多數(shù)有資金實力的民營企業(yè)部署滿血版DeepSeek大模型的最優(yōu)選擇。


然而,由于目前H20 141G的版本剛剛推出、正在批量交付,市場上的現(xiàn)貨并不多;加之是閹割版的芯片、央國企不允許購買,因此正式被投入到企業(yè)中使用的141G顯存版H20一體機并不多,真正出貨量較多的還是搭載了H100、H200等芯片的一體機。


此外,這波DeepSeek浪潮也帶動了國產(chǎn)芯片的出貨,和國產(chǎn)芯片一體機銷量的增長。


正如前文所提,在國家政策的要求下,不少政府和央國企都需要在本地部署大模型,于是搭載了華為、摩爾線程、沐曦等國產(chǎn)AI芯片的DeepSeek一體機則成為了政府和央國企滿足數(shù)據(jù)安全、高效算力和簡易部署的第一選擇。也因此,不少一體機廠家都在主推搭載了國產(chǎn)AI芯片的一體機,“單機跑滿血版”更是成為了一部分廠家的主打賣點。


目前,包括三大運營商和華為、浪潮信息、聯(lián)想集團、京東云等在內(nèi),眾多IT廠商都推出了包含國產(chǎn)芯片的一體機產(chǎn)品,比如聯(lián)想聯(lián)合沐曦發(fā)布了基于DeepSeek大模型的首個國產(chǎn)一體機解決方案;華為與中國移動、華鯤振宇、寶德、神州鯤泰、長江計算等20余家廠商合作推出了基于昇騰芯片的DeepSeek一體機,覆蓋金融、醫(yī)療等領(lǐng)域;海光、壁仞、天數(shù)、摩爾線程、算能等國內(nèi)芯片廠商也通過合作或自研的方式推出了自己的一體機產(chǎn)品。


但相較于英偉達的H20,國產(chǎn)一體機并不是性價比最高的選擇。


以滿血版DeepSeek大模型的部署為例,目前市面上一臺141G顯存的8卡H20一體機的價格約為140萬元,更高端一點的8卡H200一體機的價格約為200萬元;而國產(chǎn)機方面,一臺搭載了8卡昇騰910B的一體機價格約為130萬元,如果是64G顯存的訓推卡部署滿血版DeepSeek至少需要兩臺機器,如果是32G的推理卡則至少需要四臺。


也就是說,如果選擇昇騰卡來部署滿血版DeepSeek,那么至少需要花260萬-520萬不等,性價比遠不及英偉達的140萬。


然而,即使性價比遠不如英偉達,在國家的信創(chuàng)政策和安全性、隱私性等因素的考量下,大量政府、央國企和金融企業(yè)仍然選擇購買國產(chǎn)芯片的一體機。


3月7日,沐曦集成電路發(fā)布消息稱,他們與聯(lián)想集團合作的國產(chǎn)DeepSeek一體機累計發(fā)貨量已經(jīng)突破千臺,配備沐曦國產(chǎn)GPU卡近萬張,覆蓋醫(yī)療、教育、制造等十余個核心行業(yè);另據(jù)相關(guān)媒體報道,華為昇騰DeepSeek一體機今年一季度的銷售任務(wù)已被提前完成。


最近也有昇騰相關(guān)專家對外公開表示,在國產(chǎn)卡一體機里,昇騰卡的占比達到了70%以上。同時,昇騰GPU的今年出貨量在75萬到80萬張之間,其中910B約為35萬張,910C約為40萬;而在需求結(jié)構(gòu)上,地方算力中心10萬張,運營商20萬張,互聯(lián)網(wǎng)企業(yè)40-50萬張。這其中,一體機形式的約為5-10萬張,以政企需求為主,已經(jīng)快要接近智算中心對昇騰GPU的需求量。


而由于政企數(shù)字化市場容量巨大,且相對碎片化,不存在一家通吃的情況,因此短期內(nèi),國內(nèi)的大小科技公司都有機會在DeepSeek一體機這個市場上賺到錢。這也是服務(wù)器、算力、軟件、IT系統(tǒng)集成等各行各業(yè)的科技公司都來摻和“DeepSeek一體機”這件事的原因。


那么,國產(chǎn)一體機跑滿血版大模型,究竟靠譜嗎?


三、國產(chǎn)卡一體機跑滿血版,靠譜嗎?


衡量大模型推理性能的有兩個指標,分別是系統(tǒng)吞吐(TPS,Tokens Per Second)并發(fā)數(shù)(Concurrency)。其中,系統(tǒng)吞吐指的是單位時間內(nèi)模型處理的Token數(shù)量,它直接影響實時交互場景的流暢性;而并發(fā)數(shù)則是模型同時處理多個請求的能力,它直接影響系統(tǒng)的擴展性。


如果要將衡量指標更進一步細化,那么可以再加上TTFT(Time to First Token,生成首個Token所需時間)TPOT(Time Per Output Token,每生成一個Token所需的時間)。模型的整體推理延遲(Latency)就可以根據(jù)這兩個指標計算出來(計算公式為:Latency=TTFT+TPOT×生成Token數(shù))


大模型推理服務(wù)流程,圖片來源:無問芯穹


一般而言,TTFT要小于5秒-10秒,而在1秒-1.4秒之間是大部分用戶能夠接受的延遲;而20token/s的每秒生成Token數(shù)能滿足一個用戶的正常閱讀需求。


“甲子光年”了解到,目前大部分國產(chǎn)芯片一體機跑DeepSeek滿血版大模型的時間大概是10 token/s,其中某國產(chǎn)芯片廠商在自己的文檔中寫道月底會將數(shù)據(jù)優(yōu)化到25Token/s。



而英偉達的數(shù)據(jù)是什么樣呢?


某國產(chǎn)AI Infra廠商用141G顯存的8卡H20一體機做了測試。通過硬件調(diào)優(yōu)、算子優(yōu)化、混合并行、多token預(yù)測等多方面的工程實踐,在單路并發(fā)、268tokens輸入、2869tokens輸出的情況下,英偉達8卡H20一體機實現(xiàn)了單用戶吞吐最高32.9 tokens/s、平均TTFT 191.72ms的表現(xiàn);


8卡141GH20單路并發(fā)測試日志圖片來源:公眾號IT技術(shù)分享-老張


而在1024路并發(fā)、1000/1000的輸入/輸出長度的情況下,英偉達8卡H20一體機實現(xiàn)了3975.76 tokens/s的總設(shè)備吞吐。


1024路并發(fā)性能測試日志,圖片來源:公眾號IT技術(shù)分享-老張


也有工程師使用配置為八張141G顯存的H20GPU、兩張英特爾至強Platinum 8480+CPU、2T DDR5內(nèi)存和3.84TB的機器做了測試,結(jié)果顯示,英偉達的GPU在單路并發(fā)、128tokens輸入、1024tokens輸出的情況下上跑出了平均用戶吞吐率23.68tokens/s、平均TTFT 174.51ms的成績。


圖片來源:贊奇科技


而在NEOLINK LABS的測試中,兩臺8卡96G顯存的H20運行DeepSeek-R1滿血版實現(xiàn)了高達6279.08tokens/s的峰值總吞吐。


圖片來源:公眾號“NEOLINK LABS”


可以看到,在系統(tǒng)吞吐和并發(fā)率兩個指標上,國產(chǎn)AI芯片一體機嚴重落后于搭載了英偉達芯片的一體機。


盡管有些國產(chǎn)廠家聲稱自己家的一體機單機就能跑DeepSeek大模型、實現(xiàn)不輸2400tokens/s的總吞吐(這一數(shù)值約為4臺H800一體機集群跑DeepSeek滿血版的吞吐量),但這是在調(diào)整模型精度的情況下進行的。


圖片來源:某廠商DeepSeek一體機宣傳圖


“有些廠家說自己單機就能跑DeepSeek滿血版,吞吐和并發(fā)還很高,但他們跑的是量化版。很多廠商所謂的‘優(yōu)化’都是在降低模型智商的情況下進行的,很多國產(chǎn)卡一體機如果要在智商不下降的情況下運行滿血版大模型,連單用戶10token/s的吞吐都跑不到。”陳嬌嬌說。


陳嬌嬌所說的“量化版”,指的是在原生FP8數(shù)據(jù)精度的671B模型基礎(chǔ)上,通過動態(tài)量化技術(shù),將模型精度降低,提高模型吞吐,降低了所需硬件資源開銷的模型。


目前市面上的滿血版模型分為三種,分別是數(shù)據(jù)精度為DeepSeek原生的FP8、顯存占用671G的“原生滿血版”;數(shù)據(jù)精度為BF16或FP16、顯存需求未量化1342G的“轉(zhuǎn)譯滿血版”;數(shù)據(jù)精度為INT8(Q8)、INT4(Q4,顯存335G)、Q2、Q1的“量化滿血版”。只有原生滿血版是最符合DeepSeek官方智商水平的模型,其他兩個版本的模型都有一定程度的“智商下降”。至于智商下降多少,則取決于技術(shù)團隊做轉(zhuǎn)譯和量化時候的取舍和操作。


陳嬌嬌表示,還有些國產(chǎn)芯片一體機廠商根本不公布輸入和輸出長度,就直接說自己的產(chǎn)品跑671B大模型能輸出多少Token、達到多少并發(fā)。


“英偉達所有的結(jié)果都是有標準測試條件的,很多國產(chǎn)卡一體機廠商為了數(shù)據(jù)好看把測試條件全刪了,然后說自己的數(shù)據(jù)比英偉達還好”,陳嬌嬌說,“我認為所有不公布輸入、輸出長度的性能測試都是耍流氓。


某大廠高層也透露,自家公司出的一體機只是宣傳的數(shù)據(jù)很好,但是實際跑起來的效果并不好,會出現(xiàn)各種毛病,時不時就要公司的業(yè)務(wù)人員前去維護。“就算跑的是量化版的模型,效果都很爛”。同時,該高管還告訴“甲子光年”,截止到目前,這款單機能跑滿血版的一體機銷售額只有幾千萬,以150萬/臺的最高單價計算,出貨量不過幾十臺。


為什么國產(chǎn)卡一體機跑滿血版DeepSeek大模型的情況不如英偉達呢?


數(shù)據(jù)精度不匹配是第一個原因。DeepSeek模型采用FP8混合精度訓練,但目前公開市場上僅有三款國產(chǎn)AI芯片支持FP8,分別是算能SC1x瀚博VA1x摩爾線程S5x,除此之外其他國產(chǎn)芯片均不支持FP8。這也就造成了想要跑DeepSeek大模型,必須要將模型轉(zhuǎn)譯成FP16或BF16精度,或者通過動態(tài)量化技術(shù)將模型將模型變成量化版。轉(zhuǎn)譯成FP16或者BF16需要在原來基礎(chǔ)上兩倍的顯存,而將模型變成量化版則需要損失一定的精度。


據(jù)陳嬌嬌表示,在能跑FP8的國產(chǎn)芯片中,其中有一家的表現(xiàn)尤為突出,因為他們在拿做過去成功的經(jīng)驗做AI芯片項目——立項的時候就押注MoE模型、大顯存和低算力成本這三個點,而DeepSeek爆發(fā)后這三個點全部踩上了。


然而,由于被列入了實體清單,這家廠商只生產(chǎn)出來了少量的樣品,盡管賭對了技術(shù)方向,但仍然無法大規(guī)模批量生產(chǎn)。


國產(chǎn)卡一體機的性能不足是第二個原因。而性能,是由內(nèi)置GPU芯片的顯存制程互聯(lián)三個方面決定的:


目前國產(chǎn)AI芯片中,可以查詢到的顯存規(guī)格最大的芯片是昇騰910B,訓練卡擁有64G顯存,推理卡擁有32G顯存,而即使是8卡的64G顯存規(guī)格昇騰芯片一體機,也無法滿足滿血版的顯存要求。而英偉達H20普通版就有96G顯存,升級版更是將顯存提高到了141G,單機就可運行滿血版;


制程方面,國產(chǎn)AI芯片當前制程能力以7-12納米為主,并在28納米及以上成熟制程占據(jù)市場優(yōu)勢,但在5納米及以下先進制程領(lǐng)域仍需突破技術(shù)和設(shè)備限制。而國外的AI芯片已經(jīng)將制程突破到了3納米,并且在2025年正式進入2納米工藝元年;


互聯(lián)方面,國產(chǎn)卡由于顯存不足,仍然需要依靠多機互聯(lián)來跑滿血版大模型。目前英偉達的NVLink、NVSwitch互聯(lián)帶寬可達900GB/s以上,且支持大規(guī)模并行計算和低延遲通信;而國內(nèi)仍然主要依賴PCIe 4.0/5.0或以太網(wǎng)互聯(lián),帶寬和延遲均表現(xiàn)弱于NVLink。即使有的國產(chǎn)芯片廠商會選擇InfiniBand(IB)或者高速以太網(wǎng)RoCE實現(xiàn)互聯(lián),但這些方案的通信延遲很大,這也會影響最終部署的效果。


盡管昆侖芯新推出的P800一體機據(jù)說單卡有96G的顯存,可以實現(xiàn)單機跑滿血版大模型,沐曦和摩爾線程也分別推出了時空互聯(lián)(推測200–600GB/s)和MT-Link 2.0(480GB/s)技術(shù),但是國產(chǎn)一體機由于軟件層面的優(yōu)化不足,跑滿血版的表現(xiàn)仍然欠佳。這也是國產(chǎn)卡一體機效果不如英偉達的第三個原因。


“市場上那么多做大模型一體機的,硬件扒開來看可能也就是那幾個服務(wù)器廠商出的,大家差異化的點主要是在軟件,包括底層架構(gòu)的優(yōu)化,推理引擎的優(yōu)化,操作系統(tǒng)內(nèi)核級的優(yōu)化等,換句話說,大家都在比拼在同等硬件配置、同等規(guī)模參數(shù)的情況下,誰能提供提供更多的系統(tǒng)吞吐和并發(fā)。”賀皓說。


而陳嬌嬌和他所在公司的的主營業(yè)務(wù)除了幫助政企客戶做一體機的選型,還有一塊很大的業(yè)務(wù)就是幫客戶做一體機的部署和調(diào)優(yōu)。


一體機不同廠商之間其實就是在競爭兩個點,一個點是對性能的優(yōu)化,就是要在保證模型智商不下降、或者下降最小情況下的性能最優(yōu);第二個點則是應(yīng)用做的好不好。”陳嬌嬌說。


陳嬌嬌將當前市場上的一體機分為了ABC三類:


A類是純硬件,就是AI卡+機頭的模式,更適合有開發(fā)能力的客戶;


B類是在硬件的基礎(chǔ)上加上了模型和開發(fā)平臺,如Dify、DBgpt等,更適合有實施能力的客戶;


C類是在B類的基礎(chǔ)上疊加了一些應(yīng)用作為整體產(chǎn)品輸出,比如知識庫等,更適合想要開箱即用的用戶。


圖片來源:公眾號“算力百科”


基于上述分類邏輯,陳嬌嬌也認同一體機之間的競爭主要是在軟件。而由于一體機太火,市場上很多投機的人也進來做一體機了,但他們的軟件調(diào)優(yōu)能力是不足的,因此他們瘋狂給那些預(yù)算有限的客戶推銷搭載了32B、70B等蒸餾版DeepSeek模型的一體機,銷售出去后就不再提供后續(xù)的安裝和維護服務(wù)。


“很多廠商可能把一體機定價定的比較低,比如賣到30萬左右。但是在30萬的硬件上,他們只能干70B,干不了滿血版。不是所有團隊都有足夠的軟件能力駕馭671B大模型的,在十萬或者幾十萬的硬件上,把671B滿血版大模型跑到10tokens/s或者15 tokens/s以上是需要功底的,大部分人做不了。即使能勉強做滿血版,并發(fā)也不太夠,比如現(xiàn)在客戶要求20個人、50個人同時使用的話,就完成不了。于是他們跟客戶說你用個70B吧,70B的計算量小、并發(fā)高。看起來是甲方企業(yè)技術(shù)能力的問題,其實根本上還是乙方的問題。”陳嬌嬌說。


陳嬌嬌表示,現(xiàn)在很多市場上做一體機的廠商專門給客戶推70B或者更低參數(shù)的一體機,只強調(diào)并發(fā)量,不保證實際性能,至于能不能用的起來概不負責,等客戶買單后就結(jié)束服務(wù)。一旦客戶覺得不好用了,就讓客戶接著再買“升級版”的下一代產(chǎn)品。


“我還知道有些廠商,專門就給客戶推32B的低價一體機,他們會說‘預(yù)算一定的情況下,我讓合作伙伴多賺點錢不香嗎’。”陳嬌嬌說。


四、DeepSeek最好的部署方式,并不是一體機


盡管目前幾乎各家IT廠商都在做一體機,市場上也有價格不等、規(guī)格各異的一體機產(chǎn)品能滿足客戶各種各樣的需求,但是DeepSeek大模型最好的部署方式并不是一體機。


這與DeepSeek的模型架構(gòu)有關(guān)。


DeepSeek-R1模型采用了MoE架構(gòu),每次只激活一堆專家里的少量專家。根據(jù)DeepSeek最新發(fā)布的文章,每層256個專家僅激活其中8個,相當于只激活了671B參數(shù)里的37B參數(shù),因而極大降低了計算量。


但是,MoE模型里那些未激活專家,雖然不消耗算力,但它們的參數(shù)量仍然要占用顯存/內(nèi)存,帶來巨大的存儲開銷和調(diào)度復(fù)雜性。也就是說,必須要有很大的總batch size,才能給每個專家提供足夠的expert batch size,從而實現(xiàn)更大的吞吐、更低的延遲。


運行數(shù)據(jù)精度為FP8的671B滿血版模型需要多大的內(nèi)存呢?根據(jù)行業(yè)內(nèi)的計算公式,我們首先可以得出不同精度數(shù)據(jù)下,1B參數(shù)內(nèi)存的大小:


參考資料:IT技術(shù)分享-老張制圖:甲子光年


以FP8精度的滿血版DeepSeek-R1 671B為例,假設(shè)batch size=30,輸入Token數(shù)=2048,輸出Token數(shù)=2048,層數(shù)=61,hidden_size=7168;


按照“DeepSeek推理所需顯存=模型參數(shù)部分+激活參數(shù)部分+KV Cache”的公式計算,總的顯存容量=671×1GB+37x1G+30×(2048+2048)×2×61×7168×1Bytes=671GB+100.08GB=808.08GB


此外,模型推理的上下文長度(Context Length)不同會對KV Cache的顯存占用影響很大,不同的廠商對顯存大小的推薦也略有不同,下圖是某大廠對DeepSeek不同模型參數(shù)量&模型精度的顯存推薦:


參考資料:IT技術(shù)分享-老張,某大廠;制圖:甲子光年


這也就意味著,如果要實現(xiàn)在一體機上運行滿血版DeepSeek大模型,就必須把參數(shù)、配置拉滿,起碼顯存要做到808-846GB,機器才能裝得下6710億參數(shù)。然而,由于每次真正激活的參數(shù)只有370億,剩余參數(shù)的存放對于顯存、內(nèi)存、硬盤來說是極大的浪費,因此一體機并不適合運行DeepSeek這種MoE模型,而是更適合那些非MoE的全參數(shù)激活模型。


DeepSeek官方在其推理系統(tǒng)概覽文章里也說,要實現(xiàn)更大的吞吐、更低的延遲就需要需要大規(guī)模的跨節(jié)點專家并行(Expert Parallelism/EP)。也就是說,對企業(yè)來說,多機多卡的大規(guī)模的并行集群才是DeepSeek官方推薦的路線。


圖片來源:DeepSeek知乎官方賬號


正因為這種采用了這種大規(guī)模并行架構(gòu),DeepSeek才實現(xiàn)了令人驚訝的的單服務(wù)器平均推理性能。英偉達官方實測顯示,DeepSeek-V3/R1使用H800集群(單節(jié)點8卡),在FP8混合精度下實現(xiàn)輸入吞吐73.7k tokens/s(含緩存命中)和輸出吞吐14.8k tokens/s。而國產(chǎn)一體機廠商們給出的性能指標,輸出+輸入的吞吐量總和最多也不過4k tokens/s。


而在目前絕大多數(shù)中小企業(yè)預(yù)算有限、對采購的第一影響因素仍然是“性價比”的當下,一體機真實的銷售情況也并未像市場中傳言的那樣火爆。


“甲子光年”從多位一體機銷售處了解到,今年2月到3月的一體機市場情況并不佳,大部分企業(yè)仍然以比價和觀望為主,問的多、買的少;而即使有政策要求購買國產(chǎn)卡的一體機,但是部分央國企為了“嘗鮮”,仍然會選擇在某一個部門部署一到兩臺英偉達芯片的一體機,對此監(jiān)管部門也會睜一只眼閉一只眼。


“客戶預(yù)算有限,都想先用我們的機器測一測性能,但是我們現(xiàn)在只有運營商這種比較大的客戶才能給他們配機器測試一下,不然很多人測完了不買都是白嫖。”超聚變銷售經(jīng)理孟令廣表示。


或許也是看到了當前的一體機運行DeepSeek大模型的技術(shù)局限,近日,昇騰推出了大規(guī)模跨節(jié)點專家并行(大EP)集群推理方案,并和科大訊飛合作實現(xiàn)了基于昇騰算力的8機64卡DeepSeek大規(guī)模跨節(jié)點專家并行集群推理。這是繼DeepSeek公布其MoE模型訓練推理方案后,業(yè)界首個基于自研算力的全新解決方案。


昇騰大EP方案采用了MoE負載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP(多Token預(yù)測)等技術(shù),實現(xiàn)了MoE模型專家之間的負載均衡——專家數(shù)據(jù)交換效率提升40%,降低跨機流量60%,卡間負載差異小于10%,集群吞吐提升30%;此外,推理集群的性能和吞吐量也得以提升——單卡靜態(tài)內(nèi)存占用縮減至雙機部署的1/4,效率提升75%,專家計算密度增加4倍,推理吞吐提升3.2倍,端到端時延降低50%。


緊隨DeepSeek的“號召”,升級后的昇騰大EP方案,可支持從幾十卡到幾千卡甚至更大規(guī)模的推理集群。而企業(yè)之前采購的一體機,也可以通過軟件升級,擴展為大EP的推理方案。


“甲子光年”從某大廠高管處獲悉,目前大部分企業(yè)都已經(jīng)結(jié)束了“嘗鮮”,正式進入了采購和部署階段,而部分企業(yè)的采購決策也從開箱即用的DeepSeek一體機,轉(zhuǎn)向了可支撐高并發(fā)、低時延的大規(guī)模專家并行(EP)推理集群。這也是DeepSeek開源自己的技術(shù)方案后給市場帶來的改變。


但是,這并不意味著一體機就是一個很差的產(chǎn)品形態(tài)。對于預(yù)算有限或者業(yè)務(wù)場景對AI需求不大的企業(yè),一體機仍然是他們嘗試AI、初步探索大模型賦能業(yè)務(wù)場景的最佳選擇。


對這些企業(yè)來說,無論是搭載了蒸餾版DeepSeek模型的一體機,還是搭載了非MoE架構(gòu)的小體積新模型的一體機,都足以應(yīng)對現(xiàn)有業(yè)務(wù)的AI部署需求。而在DeepSeek R2推出之后,還將會有更多公司基于新的模型推出一體機或其他的硬件產(chǎn)品,屆時再部署或許也將能實現(xiàn)更高的投入產(chǎn)出比。


無論算力產(chǎn)品形態(tài)如何演變,長期看,唯有國產(chǎn)芯片在算力密度、互聯(lián)技術(shù)和開源生態(tài)上實現(xiàn)突破,一體機才能越來越才能真正打破“性能妥協(xié)”與“國產(chǎn)合規(guī)”的二律背反,讓DeepSeek的“中國式爆發(fā)”不止于熱鬧,而是沉淀為一場扎實的產(chǎn)業(yè)進化。


本文來自微信公眾號:甲子光年 (ID:jazzyear),作者:王藝,編輯:栗子

本內(nèi)容為作者獨立觀點,不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請聯(lián)系hezuo@huxiu.com
如對本稿件有異議或投訴,請聯(lián)系tougao@huxiu.com
正在改變與想要改變世界的人,都在 虎嗅APP
贊賞
關(guān)閉贊賞 開啟贊賞

支持一下 ??修改

確定
主站蜘蛛池模板: 封丘县| 民和| 碌曲县| 乌兰县| 滨海县| 和平县| 涟源市| 韶山市| 长宁县| 本溪市| 合阳县| 改则县| 仲巴县| 南丹县| 台前县| 古交市| 苗栗市| 德钦县| 遂溪县| 泰宁县| 安新县| 襄樊市| 营口市| 雅江县| 绩溪县| 彭水| 桐梓县| 含山县| 灵石县| 昭苏县| 上林县| 农安县| 离岛区| 恩施市| 承德市| 镇雄县| 洪泽县| 凤庆县| 财经| 喜德县| 延边|