星空无限传媒免费看电视剧,csgo高清大片视频,亚洲中文字幕精品久久久久久直播

“至少有一億元的AI推理一體機硬件需求沒有被滿足。”“DeepSeek出來之后，云服務(wù)廠商的電話已經(jīng)被打爆了，全都是咨詢DeepSeek一體機的。”

這是“甲子光年”最近聽到最多的兩句話。

DeepSeek在2025年春節(jié)期間火出圈后，掀起了中國企業(yè)本地化部署的風潮，也帶火了一款新的產(chǎn)品——DeepSeek一體機。

怎樣形容DeepSeek一體機的火爆程度呢？

這么說吧，去年我們在很多科技產(chǎn)業(yè)大會上看到最多的產(chǎn)品是機器人。而今年初在一些科技產(chǎn)業(yè)大會的外部展覽區(qū)，機器人的展位有所減少，放眼望去，大片映入眼簾的，是各家廠商推出的DeepSeek一體機。

一體機產(chǎn)品，圖片來源：“甲子光年”拍攝

也有服務(wù)器廠商的工作人員告訴我們，從春節(jié)期間DeepSeek火出圈到現(xiàn)在，每天都有鋪天蓋地的電話打進來，都是來咨詢一體機或者本地部署DeepSeek大模型的，有時候銷售和售前要一天拜訪三波客戶去做交流和講解。

交易市場的火熱還只是其次。在風起云涌的二級市場，甚至出現(xiàn)了“一體機概念股”，首都在線、天璣科技、恒為科技、紫光股份、云從科技、廣電運通等公司的股票都在近期迎來了不同程度的上漲。

為什么在短時間內(nèi)出現(xiàn)了DeepSeek一體機的大爆發(fā)？服務(wù)器、云廠商、芯片、軟件、集成商……各個領(lǐng)域的科技企業(yè)都推出了一體機，它們之間的差別是什么，客戶應(yīng)該怎么選購合適自己的產(chǎn)品？搭載了國產(chǎn)AI芯片的一體機跑滿血版DeepSeek模型的效果又究竟怎樣？

一、DeepSeek帶火一體機產(chǎn)品

所謂“一體機”，指的是一種專門為人工智能大模型應(yīng)用和部署而設(shè)計的集成計算設(shè)備，通常包含中央處理器（CPU）、圖形處理器（GPU）、存儲器、操作系統(tǒng)、AI平臺軟件及各類模型算法等軟硬組件，可以看成是“大模型+服務(wù)器”的“1+1”產(chǎn)品。

換句話說，它是一個“AI工具箱”，里面塞滿了硬件、軟件和行業(yè)專用工具，具有數(shù)據(jù)本地處理、部署周期短、成本低等優(yōu)點，非常適合政府、銀行、醫(yī)院等對隱私要求高的行業(yè)和單位。

其實，一體機并不是新的概念，早在DeepSeek爆火之前，就有大模型一體機產(chǎn)品被部分政府和企業(yè)應(yīng)用在了私有化部署等場景中。相較于大型的服務(wù)器集群，一體機成本更低、操作更便捷，也更適合中小企業(yè)或個人等小規(guī)模的業(yè)務(wù)需求。

既然一體機并不是一個新東西，那為什么DeepSeek發(fā)布后，一體機這一產(chǎn)品才迅速躥紅呢？這與DeepSeek-R1模型本身的技術(shù)優(yōu)勢、政府號召、開源策略和資本市場的推波助瀾密切相關(guān)：

DeepSeek-R1發(fā)布后，由于它的MoE架構(gòu)、MLA算法大幅降低了模型對算力的需求，加之不同版本蒸餾小模型的推出，讓模型部署變得更加容易，無需花重金購置服務(wù)器集群就能將模型部署到本地，極大提升了全民部署DeepSeek的熱情；

自上而下的號召也很關(guān)鍵。春節(jié)后黨政機關(guān)引入DeepSeek的需求井噴，北京、廣州等多地政務(wù)系統(tǒng)宣布全面啟用DeepSeek大模型，首批“AI公務(wù)員”正式上崗，覆蓋文件處理、政策咨詢等場景；

而在2月19日國資委召開“AI+”專項行動深化部署會后，大模型的本地部署成為剛需，一體機的本地化部署方案恰恰有效解決了金融、政務(wù)等敏感領(lǐng)域的數(shù)據(jù)合規(guī)問題，于是多家央國企紛紛加入一體機采購的浪潮；

與此同時，DeepSeek的模型是開源的，企業(yè)可基于其開發(fā)定制化的解決方案，結(jié)合國產(chǎn)芯片構(gòu)建軟硬一體的生態(tài)，DeepSeek一體機讓想做數(shù)字化轉(zhuǎn)型、但技術(shù)能力欠缺的企業(yè)無需支付高昂的模型授權(quán)費、通過簡單的部署就能用上大模型；加之二級市場DeepSeek概念股大漲，眾多企業(yè)為了自己的股價和估值，也紛紛采購一體機部署DeepSeek……上述種種因素，都推動了DeepSeek一體機的爆發(fā)。

“我們預(yù)計，兩年內(nèi)、在百人以上的組織里，大模型的滲透率會達到40%-50%，而一體機會是他們最優(yōu)先的選擇。”公眾號“算力百科”主理人、深圳未來智算科技有限公司創(chuàng)始人陳嬌嬌對“甲子光年”表示。

究竟有多少公司在做一體機呢？目前除了互聯(lián)網(wǎng)公司和做硬件的廠商，那些原來做集成商的、做軟件的、做組裝廠的、做交換機的企業(yè)也都推出了一體機。“只要是IT行業(yè)相關(guān)的公司都在做，即使不是自己研發(fā)的，也會OEM一個。”陳嬌嬌表示。

從分類上看，目前，市面上的DeepSeek一體機分為推理一體機和訓推一體機兩大類。

推理一體機主要面向需要高效推理計算的企業(yè)，內(nèi)置DeepSeek-R1滿血版671B、70B、32B等不同尺寸的模型，價格從幾十萬到數(shù)百萬不等，適用于對數(shù)據(jù)安全性要求較高的企業(yè)；

訓推一體機則適用于需要進行模型訓練和推理的場景，其價格更高、主要用于預(yù)訓練和微調(diào)大模型，能夠支持更復(fù)雜的訓練、推理任務(wù)。根據(jù)硬件配置和軟件調(diào)優(yōu)程度的不同，價格在幾十萬到幾百萬不等。

“甲子光年”根據(jù)公開資料，對部分推出DeepSeek一體機的廠商做了統(tǒng)計，情況如下所示：

DeepSeek一體機發(fā)布情況，制圖：甲子光年

根據(jù)浙商證券研報，目前，已有23%的央企有大模型部署，未來大模型的普及率預(yù)計會進一步增加；而隨著DeepSeek帶動大模型的快速部署需求，一體機的部署占比有望持續(xù)增長，浙商證券預(yù)計，2025—2027年，一體機采購量將分別達到15、39、72萬臺，DeepSeek一體機在央國企的市場空間有望達到1236、2937、5208億元。

二、央國企要國產(chǎn)，民企要H20

那么，這些廠商推出的一體機都賣給誰了呢？

政府和央國企顯然是這一波DeepSeek一體機上新潮的最大客戶。

近年來，中國持續(xù)推進信創(chuàng)產(chǎn)業(yè)和國產(chǎn)替代戰(zhàn)略，要求關(guān)鍵領(lǐng)域（如政府、金融、能源等）優(yōu)先采用國產(chǎn)技術(shù)，降低對外依賴。DeepSeek作為本土AI企業(yè)，其產(chǎn)品天然符合這一政策導(dǎo)向。

加之政府和央國企涉及大量政務(wù)數(shù)據(jù)、民生數(shù)據(jù)和國家基礎(chǔ)設(shè)施數(shù)據(jù)，對數(shù)據(jù)安全和隱私保護的要求極高，DeepSeek一體機的本地化部署和封閉式架構(gòu)，不僅能滿足政府和央國企對數(shù)據(jù)和隱私的合規(guī)要求，而且開箱即用、無需雇傭龐大的運維團隊，因此成為了政府和央國企的首選。

有數(shù)據(jù)統(tǒng)計，截至2月21日，已經(jīng)有45%的央企完成了對DeepSeek模型的部署，而這其中不少企業(yè)都選擇了一體機的方案。

從不到一個月的時間內(nèi)，如此高比例的央企實現(xiàn)了對開源模型的快速覆蓋，這一速度在過去是難以想象的。

除了政府和央國企，民營企業(yè)也是部署DeepSeek大模型的重要玩家。

由于百度、阿里等互聯(lián)網(wǎng)巨頭自己就是云服務(wù)商、自己就售賣一體機產(chǎn)品，因此購買一體機的多是有資金實力的大型民企中的個別業(yè)務(wù)部門，或者有數(shù)字化轉(zhuǎn)型需求的中小民營企業(yè)。

“購買我們一體機的金融類客戶比較多，因為一體機首先就主打線下私有化交互，而這些客戶首先強調(diào)的就是數(shù)據(jù)不出域。除了金融類客戶，政務(wù)類客戶和之前的頭部大KA也是購買一體機的主力客戶。”京東云PaaS業(yè)務(wù)部產(chǎn)品負責人賀皓告訴“甲子光年”。

“甲子光年”了解到，在打算購買一體機的企業(yè)中，大型央國企的預(yù)算較高，一般在200萬-500萬之間；中小型政府機關(guān)、央國企和民營企業(yè)的比較容易批下來的預(yù)算一般在100萬以內(nèi)；而在這100萬中，又根據(jù)預(yù)算金額的不同，分為50萬-100萬、10萬-50萬、10萬以內(nèi)三個區(qū)間。

目前，客戶預(yù)算集中在10萬-50萬的區(qū)間內(nèi)，這與客戶對部署大模型“嘗鮮”的需求和企業(yè)的預(yù)算審批制度高度相關(guān)。

“有的部門，領(lǐng)導(dǎo)手里的權(quán)限就是50萬，領(lǐng)導(dǎo)簽個字這50萬就能批出來，所以一體機廠商大部分也都是圍繞這個價格來定價的。”陳嬌嬌說。

而具體到模型的選擇上，90%以上的客戶都在咨詢滿血版DeepSeek大模型的一體機部署方案。

“首先從實際效果來說，滿血版肯定是最優(yōu)的；其次，有一小部分客戶有明確的業(yè)務(wù)使用場景，因此他們希望先部署滿血版，有了滿血版模型之后再去研究能對接什么樣的應(yīng)用場景。比如金融機構(gòu)之前一直在做投研分析報告等東西，他們其實原來也是用大模型做，DeepSeek出來之后，他們就想用滿血版來看一下，驗證一下DeepSeek滿血版的性能和效果是不是更好。”賀皓說。

盡管人人都想部署滿血版，但不是人人都有實力買得起滿血版。“甲子光年”從各一體機廠商的市場和銷售人員處了解到，在廣大的中小企業(yè)客戶中，成單量最高的是70B的模型。

預(yù)算有限肯定是首要原因。但這其中還有一個原因是，絕大多數(shù)企業(yè)還處于對大模型的“試驗”和“嘗鮮”階段，70B的模型（下文簡稱70B）足以應(yīng)對辦公場景的需求。其中，知識庫、辦公助手、智能客服等是最為高頻的應(yīng)用場景。

“70B是性價比最高的，企業(yè)如果直接部署了滿血版，萬一這個東西不好用，硬件成本怎么回收也是一個問題。而70B可以直接擴容到滿血版（通過增加機器臺數(shù)的方式）。”潞晨科技市場經(jīng)理趙一飛表示。

四通集團產(chǎn)品經(jīng)理戴歧航也表示，部署滿血版大模型的價格對絕大多數(shù)中小企業(yè)來說還是太高了：“70B買我們的設(shè)備的話20萬可以，671B的話要120萬以上。針對一般企業(yè)辦公類的使用場景，70B足夠了。”

企業(yè)選擇一體機，最看重的是其內(nèi)置的GPU芯片。

由于DeepSeek-R1模型的推理只激活671B參數(shù)中的37B參數(shù)，降低了對算力的要求，但其大規(guī)模并行的架構(gòu)對芯片的顯存提出了更高的要求。因此算力被“閹割”、但有著較大顯存和帶寬的H20成為了運行DeepSeek推理模型最有性價比的選擇——兩臺96G版本的8卡H20一體機就能運行滿血版大模型。

這也是DeepSeek模型火出圈后，H20的市場行情從“賣不出去”轉(zhuǎn)為“供不應(yīng)求”的原因，一臺96G版本8卡H20服務(wù)器的市場價格也從原來的100萬上升到了110萬左右。

英偉達部分顯卡的參數(shù)規(guī)格，制圖：甲子光年

2025年2月，為了應(yīng)對DeepSeek帶來的大顯存需求，英偉達“趁熱打鐵”，推出了H20的升級版本——擁有141G顯存的H20。新升級的H20不僅顯存容量更大了，而且顯存帶寬也從原來的4TB/s提升到了4.8TB/s，能夠?qū)崿F(xiàn)更快的數(shù)據(jù)傳輸速度。

相較于原來96G顯存版本的8卡H20一體機需要兩臺才能跑DeepSeek滿血版大模型，141G顯存版本的8卡H20一體機只需要一臺就能跑滿血版，極大降低了企業(yè)的模型部署成本。搭載了H20芯片的DeepSeek一體機也成為了絕大多數(shù)有資金實力的民營企業(yè)部署滿血版DeepSeek大模型的最優(yōu)選擇。

然而，由于目前H20 141G的版本剛剛推出、正在批量交付，市場上的現(xiàn)貨并不多；加之是閹割版的芯片、央國企不允許購買，因此正式被投入到企業(yè)中使用的141G顯存版H20一體機并不多，真正出貨量較多的還是搭載了H100、H200等芯片的一體機。

此外，這波DeepSeek浪潮也帶動了國產(chǎn)芯片的出貨，和國產(chǎn)芯片一體機銷量的增長。

正如前文所提，在國家政策的要求下，不少政府和央國企都需要在本地部署大模型，于是搭載了華為、摩爾線程、沐曦等國產(chǎn)AI芯片的DeepSeek一體機則成為了政府和央國企滿足數(shù)據(jù)安全、高效算力和簡易部署的第一選擇。也因此，不少一體機廠家都在主推搭載了國產(chǎn)AI芯片的一體機，“單機跑滿血版”更是成為了一部分廠家的主打賣點。

目前，包括三大運營商和華為、浪潮信息、聯(lián)想集團、京東云等在內(nèi)，眾多IT廠商都推出了包含國產(chǎn)芯片的一體機產(chǎn)品，比如聯(lián)想聯(lián)合沐曦發(fā)布了基于DeepSeek大模型的首個國產(chǎn)一體機解決方案；華為與中國移動、華鯤振宇、寶德、神州鯤泰、長江計算等20余家廠商合作推出了基于昇騰芯片的DeepSeek一體機，覆蓋金融、醫(yī)療等領(lǐng)域；海光、壁仞、天數(shù)、摩爾線程、算能等國內(nèi)芯片廠商也通過合作或自研的方式推出了自己的一體機產(chǎn)品。

但相較于英偉達的H20，國產(chǎn)一體機并不是性價比最高的選擇。

以滿血版DeepSeek大模型的部署為例，目前市面上一臺141G顯存的8卡H20一體機的價格約為140萬元，更高端一點的8卡H200一體機的價格約為200萬元；而國產(chǎn)機方面，一臺搭載了8卡昇騰910B的一體機價格約為130萬元，如果是64G顯存的訓推卡部署滿血版DeepSeek至少需要兩臺機器，如果是32G的推理卡則至少需要四臺。

也就是說，如果選擇昇騰卡來部署滿血版DeepSeek，那么至少需要花260萬-520萬不等，性價比遠不及英偉達的140萬。

然而，即使性價比遠不如英偉達，在國家的信創(chuàng)政策和安全性、隱私性等因素的考量下，大量政府、央國企和金融企業(yè)仍然選擇購買國產(chǎn)芯片的一體機。

3月7日，沐曦集成電路發(fā)布消息稱，他們與聯(lián)想集團合作的國產(chǎn)DeepSeek一體機累計發(fā)貨量已經(jīng)突破千臺，配備沐曦國產(chǎn)GPU卡近萬張，覆蓋醫(yī)療、教育、制造等十余個核心行業(yè)；另據(jù)相關(guān)媒體報道，華為昇騰DeepSeek一體機今年一季度的銷售任務(wù)已被提前完成。

最近也有昇騰相關(guān)專家對外公開表示，在國產(chǎn)卡一體機里，昇騰卡的占比達到了70%以上。同時，昇騰GPU的今年出貨量在75萬到80萬張之間，其中910B約為35萬張，910C約為40萬；而在需求結(jié)構(gòu)上，地方算力中心10萬張，運營商20萬張，互聯(lián)網(wǎng)企業(yè)40-50萬張。這其中，一體機形式的約為5-10萬張，以政企需求為主，已經(jīng)快要接近智算中心對昇騰GPU的需求量。

而由于政企數(shù)字化市場容量巨大，且相對碎片化，不存在一家通吃的情況，因此短期內(nèi)，國內(nèi)的大小科技公司都有機會在DeepSeek一體機這個市場上賺到錢。這也是服務(wù)器、算力、軟件、IT系統(tǒng)集成等各行各業(yè)的科技公司都來摻和“DeepSeek一體機”這件事的原因。

那么，國產(chǎn)一體機跑滿血版大模型，究竟靠譜嗎？

三、國產(chǎn)卡一體機跑滿血版，靠譜嗎？

衡量大模型推理性能的有兩個指標，分別是系統(tǒng)吞吐（TPS，Tokens Per Second）和并發(fā)數(shù)（Concurrency）。其中，系統(tǒng)吞吐指的是單位時間內(nèi)模型處理的Token數(shù)量，它直接影響實時交互場景的流暢性；而并發(fā)數(shù)則是模型同時處理多個請求的能力，它直接影響系統(tǒng)的擴展性。

如果要將衡量指標更進一步細化，那么可以再加上TTFT（Time to First Token，生成首個Token所需時間）和TPOT（Time Per Output Token，每生成一個Token所需的時間）。模型的整體推理延遲（Latency）就可以根據(jù)這兩個指標計算出來（計算公式為：Latency=TTFT+TPOT×生成Token數(shù)）。

大模型推理服務(wù)流程，圖片來源：無問芯穹

一般而言，TTFT要小于5秒-10秒，而在1秒-1.4秒之間是大部分用戶能夠接受的延遲；而20token/s的每秒生成Token數(shù)能滿足一個用戶的正常閱讀需求。

“甲子光年”了解到，目前大部分國產(chǎn)芯片一體機跑DeepSeek滿血版大模型的時間大概是10 token/s，其中某國產(chǎn)芯片廠商在自己的文檔中寫道月底會將數(shù)據(jù)優(yōu)化到25Token/s。

而英偉達的數(shù)據(jù)是什么樣呢？

某國產(chǎn)AI Infra廠商用141G顯存的8卡H20一體機做了測試。通過硬件調(diào)優(yōu)、算子優(yōu)化、混合并行、多token預(yù)測等多方面的工程實踐，在單路并發(fā)、268tokens輸入、2869tokens輸出的情況下，英偉達8卡H20一體機實現(xiàn)了單用戶吞吐最高32.9 tokens/s、平均TTFT 191.72ms的表現(xiàn)；

8卡141GH20單路并發(fā)測試日志圖片來源：公眾號IT技術(shù)分享-老張

而在1024路并發(fā)、1000/1000的輸入/輸出長度的情況下，英偉達8卡H20一體機實現(xiàn)了3975.76 tokens/s的總設(shè)備吞吐。

1024路并發(fā)性能測試日志，圖片來源：公眾號IT技術(shù)分享-老張

也有工程師使用配置為八張141G顯存的H20GPU、兩張英特爾至強Platinum 8480+CPU、2T DDR5內(nèi)存和3.84TB的機器做了測試，結(jié)果顯示，英偉達的GPU在單路并發(fā)、128tokens輸入、1024tokens輸出的情況下上跑出了平均用戶吞吐率23.68tokens/s、平均TTFT 174.51ms的成績。

圖片來源：贊奇科技

而在NEOLINK LABS的測試中，兩臺8卡96G顯存的H20運行DeepSeek-R1滿血版實現(xiàn)了高達6279.08tokens/s的峰值總吞吐。

圖片來源：公眾號“NEOLINK LABS”

可以看到，在系統(tǒng)吞吐和并發(fā)率兩個指標上，國產(chǎn)AI芯片一體機嚴重落后于搭載了英偉達芯片的一體機。

盡管有些國產(chǎn)廠家聲稱自己家的一體機單機就能跑DeepSeek大模型、實現(xiàn)不輸2400tokens/s的總吞吐（這一數(shù)值約為4臺H800一體機集群跑DeepSeek滿血版的吞吐量），但這是在調(diào)整模型精度的情況下進行的。

圖片來源：某廠商DeepSeek一體機宣傳圖

“有些廠家說自己單機就能跑DeepSeek滿血版，吞吐和并發(fā)還很高，但他們跑的是量化版。很多廠商所謂的‘優(yōu)化’都是在降低模型智商的情況下進行的，很多國產(chǎn)卡一體機如果要在智商不下降的情況下運行滿血版大模型，連單用戶10token/s的吞吐都跑不到。”陳嬌嬌說。

陳嬌嬌所說的“量化版”，指的是在原生FP8數(shù)據(jù)精度的671B模型基礎(chǔ)上，通過動態(tài)量化技術(shù)，將模型精度降低，提高模型吞吐，降低了所需硬件資源開銷的模型。

目前市面上的滿血版模型分為三種，分別是數(shù)據(jù)精度為DeepSeek原生的FP8、顯存占用671G的“原生滿血版”；數(shù)據(jù)精度為BF16或FP16、顯存需求未量化1342G的“轉(zhuǎn)譯滿血版”；數(shù)據(jù)精度為INT8(Q8)、INT4（Q4，顯存335G）、Q2、Q1的“量化滿血版”。只有原生滿血版是最符合DeepSeek官方智商水平的模型，其他兩個版本的模型都有一定程度的“智商下降”。至于智商下降多少，則取決于技術(shù)團隊做轉(zhuǎn)譯和量化時候的取舍和操作。

陳嬌嬌表示，還有些國產(chǎn)芯片一體機廠商根本不公布輸入和輸出長度，就直接說自己的產(chǎn)品跑671B大模型能輸出多少Token、達到多少并發(fā)。

“英偉達所有的結(jié)果都是有標準測試條件的，很多國產(chǎn)卡一體機廠商為了數(shù)據(jù)好看把測試條件全刪了，然后說自己的數(shù)據(jù)比英偉達還好”，陳嬌嬌說，“我認為所有不公布輸入、輸出長度的性能測試都是耍流氓。”

某大廠高層也透露，自家公司出的一體機只是宣傳的數(shù)據(jù)很好，但是實際跑起來的效果并不好，會出現(xiàn)各種毛病，時不時就要公司的業(yè)務(wù)人員前去維護。“就算跑的是量化版的模型，效果都很爛”。同時，該高管還告訴“甲子光年”，截止到目前，這款單機能跑滿血版的一體機銷售額只有幾千萬，以150萬/臺的最高單價計算，出貨量不過幾十臺。

為什么國產(chǎn)卡一體機跑滿血版DeepSeek大模型的情況不如英偉達呢？

數(shù)據(jù)精度不匹配是第一個原因。DeepSeek模型采用FP8混合精度訓練，但目前公開市場上僅有三款國產(chǎn)AI芯片支持FP8，分別是算能SC1x、瀚博VA1x和摩爾線程S5x，除此之外其他國產(chǎn)芯片均不支持FP8。這也就造成了想要跑DeepSeek大模型，必須要將模型轉(zhuǎn)譯成FP16或BF16精度，或者通過動態(tài)量化技術(shù)將模型將模型變成量化版。轉(zhuǎn)譯成FP16或者BF16需要在原來基礎(chǔ)上兩倍的顯存，而將模型變成量化版則需要損失一定的精度。

據(jù)陳嬌嬌表示，在能跑FP8的國產(chǎn)芯片中，其中有一家的表現(xiàn)尤為突出，因為他們在拿做過去成功的經(jīng)驗做AI芯片項目——立項的時候就押注MoE模型、大顯存和低算力成本這三個點，而DeepSeek爆發(fā)后這三個點全部踩上了。

然而，由于被列入了實體清單，這家廠商只生產(chǎn)出來了少量的樣品，盡管賭對了技術(shù)方向，但仍然無法大規(guī)模批量生產(chǎn)。

國產(chǎn)卡一體機的性能不足是第二個原因。而性能，是由內(nèi)置GPU芯片的顯存、制程和互聯(lián)三個方面決定的：

目前國產(chǎn)AI芯片中，可以查詢到的顯存規(guī)格最大的芯片是昇騰910B，訓練卡擁有64G顯存，推理卡擁有32G顯存，而即使是8卡的64G顯存規(guī)格昇騰芯片一體機，也無法滿足滿血版的顯存要求。而英偉達H20普通版就有96G顯存，升級版更是將顯存提高到了141G，單機就可運行滿血版；

制程方面，國產(chǎn)AI芯片當前制程能力以7-12納米為主，并在28納米及以上成熟制程占據(jù)市場優(yōu)勢，但在5納米及以下先進制程領(lǐng)域仍需突破技術(shù)和設(shè)備限制。而國外的AI芯片已經(jīng)將制程突破到了3納米，并且在2025年正式進入2納米工藝元年；

互聯(lián)方面，國產(chǎn)卡由于顯存不足，仍然需要依靠多機互聯(lián)來跑滿血版大模型。目前英偉達的NVLink、NVSwitch互聯(lián)帶寬可達900GB/s以上，且支持大規(guī)模并行計算和低延遲通信；而國內(nèi)仍然主要依賴PCIe 4.0/5.0或以太網(wǎng)互聯(lián)，帶寬和延遲均表現(xiàn)弱于NVLink。即使有的國產(chǎn)芯片廠商會選擇InfiniBand（IB）或者高速以太網(wǎng)RoCE實現(xiàn)互聯(lián)，但這些方案的通信延遲很大，這也會影響最終部署的效果。

盡管昆侖芯新推出的P800一體機據(jù)說單卡有96G的顯存，可以實現(xiàn)單機跑滿血版大模型，沐曦和摩爾線程也分別推出了時空互聯(lián)（推測200–600GB/s）和MT-Link 2.0（480GB/s）技術(shù)，但是國產(chǎn)一體機由于軟件層面的優(yōu)化不足，跑滿血版的表現(xiàn)仍然欠佳。這也是國產(chǎn)卡一體機效果不如英偉達的第三個原因。

“市場上那么多做大模型一體機的，硬件扒開來看可能也就是那幾個服務(wù)器廠商出的，大家差異化的點主要是在軟件，包括底層架構(gòu)的優(yōu)化，推理引擎的優(yōu)化，操作系統(tǒng)內(nèi)核級的優(yōu)化等，換句話說，大家都在比拼在同等硬件配置、同等規(guī)模參數(shù)的情況下，誰能提供提供更多的系統(tǒng)吞吐和并發(fā)。”賀皓說。

而陳嬌嬌和他所在公司的的主營業(yè)務(wù)除了幫助政企客戶做一體機的選型，還有一塊很大的業(yè)務(wù)就是幫客戶做一體機的部署和調(diào)優(yōu)。

“一體機不同廠商之間其實就是在競爭兩個點，一個點是對性能的優(yōu)化，就是要在保證模型智商不下降、或者下降最小情況下的性能最優(yōu)；第二個點則是應(yīng)用做的好不好。”陳嬌嬌說。

陳嬌嬌將當前市場上的一體機分為了ABC三類：

A類是純硬件，就是AI卡+機頭的模式，更適合有開發(fā)能力的客戶；

B類是在硬件的基礎(chǔ)上加上了模型和開發(fā)平臺，如Dify、DBgpt等，更適合有實施能力的客戶；

C類是在B類的基礎(chǔ)上疊加了一些應(yīng)用作為整體產(chǎn)品輸出，比如知識庫等，更適合想要開箱即用的用戶。

圖片來源：公眾號“算力百科”

基于上述分類邏輯，陳嬌嬌也認同一體機之間的競爭主要是在軟件。而由于一體機太火，市場上很多投機的人也進來做一體機了，但他們的軟件調(diào)優(yōu)能力是不足的，因此他們瘋狂給那些預(yù)算有限的客戶推銷搭載了32B、70B等蒸餾版DeepSeek模型的一體機，銷售出去后就不再提供后續(xù)的安裝和維護服務(wù)。

“很多廠商可能把一體機定價定的比較低，比如賣到30萬左右。但是在30萬的硬件上，他們只能干70B，干不了滿血版。不是所有團隊都有足夠的軟件能力駕馭671B大模型的，在十萬或者幾十萬的硬件上，把671B滿血版大模型跑到10tokens/s或者15 tokens/s以上是需要功底的，大部分人做不了。即使能勉強做滿血版，并發(fā)也不太夠，比如現(xiàn)在客戶要求20個人、50個人同時使用的話，就完成不了。于是他們跟客戶說你用個70B吧，70B的計算量小、并發(fā)高。看起來是甲方企業(yè)技術(shù)能力的問題，其實根本上還是乙方的問題。”陳嬌嬌說。

陳嬌嬌表示，現(xiàn)在很多市場上做一體機的廠商專門給客戶推70B或者更低參數(shù)的一體機，只強調(diào)并發(fā)量，不保證實際性能，至于能不能用的起來概不負責，等客戶買單后就結(jié)束服務(wù)。一旦客戶覺得不好用了，就讓客戶接著再買“升級版”的下一代產(chǎn)品。

“我還知道有些廠商，專門就給客戶推32B的低價一體機，他們會說‘預(yù)算一定的情況下，我讓合作伙伴多賺點錢不香嗎’。”陳嬌嬌說。

四、DeepSeek最好的部署方式，并不是一體機

盡管目前幾乎各家IT廠商都在做一體機，市場上也有價格不等、規(guī)格各異的一體機產(chǎn)品能滿足客戶各種各樣的需求，但是DeepSeek大模型最好的部署方式并不是一體機。

這與DeepSeek的模型架構(gòu)有關(guān)。

DeepSeek-R1模型采用了MoE架構(gòu)，每次只激活一堆專家里的少量專家。根據(jù)DeepSeek最新發(fā)布的文章，每層256個專家僅激活其中8個，相當于只激活了671B參數(shù)里的37B參數(shù)，因而極大降低了計算量。

但是，MoE模型里那些未激活專家，雖然不消耗算力，但它們的參數(shù)量仍然要占用顯存/內(nèi)存，帶來巨大的存儲開銷和調(diào)度復(fù)雜性。也就是說，必須要有很大的總batch size，才能給每個專家提供足夠的expert batch size，從而實現(xiàn)更大的吞吐、更低的延遲。

運行數(shù)據(jù)精度為FP8的671B滿血版模型需要多大的內(nèi)存呢？根據(jù)行業(yè)內(nèi)的計算公式，我們首先可以得出不同精度數(shù)據(jù)下，1B參數(shù)內(nèi)存的大小：

參考資料：IT技術(shù)分享-老張制圖：甲子光年

以FP8精度的滿血版DeepSeek-R1 671B為例，假設(shè)batch size=30，輸入Token數(shù)=2048，輸出Token數(shù)=2048，層數(shù)=61，hidden_size=7168；

按照“DeepSeek推理所需顯存=模型參數(shù)部分+激活參數(shù)部分+KV Cache”的公式計算，總的顯存容量=671×1GB+37x1G+30×(2048+2048)×2×61×7168×1Bytes=671GB+100.08GB=808.08GB

此外，模型推理的上下文長度（Context Length）不同會對KV Cache的顯存占用影響很大，不同的廠商對顯存大小的推薦也略有不同，下圖是某大廠對DeepSeek不同模型參數(shù)量&模型精度的顯存推薦：

參考資料：IT技術(shù)分享-老張，某大廠；制圖：甲子光年

這也就意味著，如果要實現(xiàn)在一體機上運行滿血版DeepSeek大模型，就必須把參數(shù)、配置拉滿，起碼顯存要做到808-846GB，機器才能裝得下6710億參數(shù)。然而，由于每次真正激活的參數(shù)只有370億，剩余參數(shù)的存放對于顯存、內(nèi)存、硬盤來說是極大的浪費，因此一體機并不適合運行DeepSeek這種MoE模型，而是更適合那些非MoE的全參數(shù)激活模型。

DeepSeek官方在其推理系統(tǒng)概覽文章里也說，要實現(xiàn)更大的吞吐、更低的延遲就需要需要大規(guī)模的跨節(jié)點專家并行（Expert Parallelism/EP）。也就是說，對企業(yè)來說，多機多卡的大規(guī)模的并行集群才是DeepSeek官方推薦的路線。

圖片來源：DeepSeek知乎官方賬號

正因為這種采用了這種大規(guī)模并行架構(gòu)，DeepSeek才實現(xiàn)了令人驚訝的的單服務(wù)器平均推理性能。英偉達官方實測顯示，DeepSeek-V3/R1使用H800集群（單節(jié)點8卡），在FP8混合精度下實現(xiàn)輸入吞吐73.7k tokens/s（含緩存命中）和輸出吞吐14.8k tokens/s。而國產(chǎn)一體機廠商們給出的性能指標，輸出+輸入的吞吐量總和最多也不過4k tokens/s。

而在目前絕大多數(shù)中小企業(yè)預(yù)算有限、對采購的第一影響因素仍然是“性價比”的當下，一體機真實的銷售情況也并未像市場中傳言的那樣火爆。

“甲子光年”從多位一體機銷售處了解到，今年2月到3月的一體機市場情況并不佳，大部分企業(yè)仍然以比價和觀望為主，問的多、買的少；而即使有政策要求購買國產(chǎn)卡的一體機，但是部分央國企為了“嘗鮮”，仍然會選擇在某一個部門部署一到兩臺英偉達芯片的一體機，對此監(jiān)管部門也會睜一只眼閉一只眼。

“客戶預(yù)算有限，都想先用我們的機器測一測性能，但是我們現(xiàn)在只有運營商這種比較大的客戶才能給他們配機器測試一下，不然很多人測完了不買都是白嫖。”超聚變銷售經(jīng)理孟令廣表示。

或許也是看到了當前的一體機運行DeepSeek大模型的技術(shù)局限，近日，昇騰推出了大規(guī)模跨節(jié)點專家并行（大EP）集群推理方案，并和科大訊飛合作實現(xiàn)了基于昇騰算力的8機64卡DeepSeek大規(guī)模跨節(jié)點專家并行集群推理。這是繼DeepSeek公布其MoE模型訓練推理方案后，業(yè)界首個基于自研算力的全新解決方案。

昇騰大EP方案采用了MoE負載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP（多Token預(yù)測）等技術(shù)，實現(xiàn)了MoE模型專家之間的負載均衡——專家數(shù)據(jù)交換效率提升40%，降低跨機流量60%，卡間負載差異小于10%，集群吞吐提升30%；此外，推理集群的性能和吞吐量也得以提升——單卡靜態(tài)內(nèi)存占用縮減至雙機部署的1/4，效率提升75%，專家計算密度增加4倍，推理吞吐提升3.2倍，端到端時延降低50%。

緊隨DeepSeek的“號召”，升級后的昇騰大EP方案，可支持從幾十卡到幾千卡甚至更大規(guī)模的推理集群。而企業(yè)之前采購的一體機，也可以通過軟件升級，擴展為大EP的推理方案。

“甲子光年”從某大廠高管處獲悉，目前大部分企業(yè)都已經(jīng)結(jié)束了“嘗鮮”，正式進入了采購和部署階段，而部分企業(yè)的采購決策也從開箱即用的DeepSeek一體機，轉(zhuǎn)向了可支撐高并發(fā)、低時延的大規(guī)模專家并行（EP）推理集群。這也是DeepSeek開源自己的技術(shù)方案后給市場帶來的改變。

但是，這并不意味著一體機就是一個很差的產(chǎn)品形態(tài)。對于預(yù)算有限或者業(yè)務(wù)場景對AI需求不大的企業(yè)，一體機仍然是他們嘗試AI、初步探索大模型賦能業(yè)務(wù)場景的最佳選擇。

對這些企業(yè)來說，無論是搭載了蒸餾版DeepSeek模型的一體機，還是搭載了非MoE架構(gòu)的小體積新模型的一體機，都足以應(yīng)對現(xiàn)有業(yè)務(wù)的AI部署需求。而在DeepSeek R2推出之后，還將會有更多公司基于新的模型推出一體機或其他的硬件產(chǎn)品，屆時再部署或許也將能實現(xiàn)更高的投入產(chǎn)出比。

無論算力產(chǎn)品形態(tài)如何演變，長期看，唯有國產(chǎn)芯片在算力密度、互聯(lián)技術(shù)和開源生態(tài)上實現(xiàn)突破，一體機才能越來越才能真正打破“性能妥協(xié)”與“國產(chǎn)合規(guī)”的二律背反，讓DeepSeek的“中國式爆發(fā)”不止于熱鬧，而是沉淀為一場扎實的產(chǎn)業(yè)進化。

本文來自微信公眾號：甲子光年（ID：jazzyear），作者：王藝，編輯：栗子

爱看影院,天美传媒97a∨,天堂av,国产精品免费大片

爆火的DeepSeek一體機，更多滿足的是情緒價值