青云發布十大智算解決方案,引領企業數智革命

近日,青云科技 2024 AI 算力發布會成功舉辦,以 “無界算力,共創數智未來” 為主題,全面展示了青云在 AI 算力領域的產品創新、生態建設及場景落地成果。

青云科技解決方案總監傅帥以 “十大場景,數智未來觸手可及” 為主題,深入闡釋了青云在金融、自動駕駛、具身智能、高??蒲?、生物醫藥等多個行業積累的豐富經驗,以及針對各行業核心痛點所形成的十大智算解決方案。

以下為青云科技解決方案總監傅帥的分享,經整理呈現。

算力與業務雙輪驅動

從 2019 年起,青云便開始涉足智算領域。此前一直在默默耕耘,今天希望借此 AI 算力發布會的契機,與各位領導、生態伙伴以及線上觀眾分享青云在 AI 領域的方案與案例。

AI 推理為最終目標,訓練仍為當前重點

首先,從大趨勢來看,AI 推理被廣泛認為是人工智能發展的最終目標或形態。就國內目前 AI 的發展進程而言,更多的重心仍在訓練階段。因為只有擁有良好的模型,才能支撐優質的應用;而有了好的應用,才能在實際應用場景中落地。

此次青云發布的十大解決方案分為兩個層級。一個層級面向算力,涵蓋智算中心、大模型/多模態以及邊緣智能方向,探討算力如何實現。當具備算力之后,再思考應用和業務如何落地。在落地層面,既涉及傳統行業如金融,也包括新興場景如自動駕駛、具身智能,后者對 AI 的運用更加深入和硬核。

十大場景,服務數智變革

智算中心:商用閉環是關鍵

自去年起,全國各地都在思考是否建設智算中心。實際上,建設智算中心是必然趨勢。AI 科學家屢獲諾貝爾獎,這說明什么?這充分表明全球范圍內 AI 是大勢所趨,是不可逆轉的。

有建設智算中心想法的機構或者個人找到青云后,首要關心的問題是:智算中心能否盈利?有哪些盈利方式?從青云的角度來看,能否盈利的背后隱含著許多非 IT 行業或未涉足過 AI 項目的參與者、投資者所不了解的因素。

簡單來說,過去我們常提到要建設數據中心,但從國內實際基礎資源的角度來看,能夠容納千卡集群的數據中心屈指可數。如果要求更高,比如現在是千卡規模,明年要達到萬卡規模,能支撐萬卡集群的數據中心更是鳳毛麟角。因此,如果關注智算中心能否實現商業閉環,其基礎在于強大的計算能力。

以 IDC 和 AIDC 為例,兩者的差別主要在于電力。青云曾經在不同場合強調過,AI 是能源,沒有充足的電力,智算中心就無從談起。其次,AI 作為一個全新的計算領域,涉及算力、運力、存力等全新技術。這些新技術帶來的挑戰在于,目前還沒有人能夠在實際生產過程中大范圍、長期地運用這些技術。技術方面的短板和未知,導致國內去年到今年上半年建設的智算中心,可能有一半都無法達到設計上的性能指標。原因在于不同技術、不同品牌的軟硬件之間的配合存在諸多問題。

那么,智算中心如何變現或產生價值呢?這需要工具和團隊的支持。以青云為例,青云自 2012 年開始做公有云,從事與云服務相關的工作,引進一套系統和團隊,才能將算力、存力和運力持續對外發揮作用,提供對外服務,從而產生實際價值,實現商業閉環。

在去年下半年到今年上半年,青云落地了 20+ 智算中心,包括如何建設 AIDC、軟件和硬件如何配套,以及建成后如何銷售、推廣和運營。青云提供這三方面的服務,以應對智算中心這一熱門領域的需求。

大模型:追求穩定與安全

除了智算中心,第二個話題是大模型/多模態。在國外,OpenAI、Meta 等紛紛發布大模型,且 Meta 在發布一個版本后,不超過一周又推出第二個版本。隨后,Google 也發布了新版本。國內同樣如此,上百家企業投身于大模型技術研發。這些大模型廠商對算力和數據的要求極高,且大模型領域競爭激烈,他們雖然多為創業公司,但體量龐大。青云為他們提供工單服務的人員經常在深夜收到支持工單。

大模型廠商、多模態廠商的核心資產是什么?一方面是各種參數量級的模型;另一方面是訓練模型所需的訓練數據集、推理時產生的生產數據。這些數據和模型是他們的核心資產。他們最為關心的問題只有一個,即如何保證數據和模型的安全。

此外,這類用戶通常處于高算力、高壓力的使用場景,需要一個持續、穩定、可靠的平臺,為模型訓練提供保障。過去我們認為一個模型只需訓練一兩周就能投入使用,但實際上,與許多模型訓練廠商交流后發現,模型訓練就如同煉丹,同樣參數在訓練時效果可能不如訓練前,但經過不斷調整,下一版本訓練時模型質量會更好。這是一個需要時間和效率去提升模型質量的過程。因此,平臺業務的連續性非常重要,尤其是針對大模型、多模態的廠商,他們訓練任務多、時間非常長、規模非常大,任何一個故障都會影響整個生命周期,會影響最終模型的效果。

因此,對于大模型、多模態以及垂類模型這類客戶,青云提供專屬的算力專區或私有化的算力平臺。專屬算力專區和私有化平臺從物理層面保障了數據的安全性和可靠性,同時通過軟件平臺提供持續、穩定、可靠的平臺服務,為這類客戶提供場景支持。

邊緣智算:中心與邊緣的協同

之前談到了智算的趨勢,現階段 AI 以訓練為主,未來則是推理。訓練由中心端提供,具備千卡甚至萬卡的算力能力。而產出的模型要真正應用于業務場景和應用場景,這些場景通常處于邊緣側。

以我們的金融行業客戶為例,如今都在追求降本增效、提升效率。比如銀行網點的智能化,通過邊緣設備實現開戶、辦理信用卡等業務流程,不再需要人工辦理??蛻粼阢y行網點通過帶有攝像頭的機器,與數字人進行語音或視頻交互,完成整個業務流程。這是一個典型的在中心端進行訓練、在邊緣側實現推理的金融邊緣行業場景。

在交通行業也一樣,全省的高速公路、收費站、攝像頭等都裝有傳感器。要實現整個流程的串聯,需要對邊緣設備進行統一管理。邊緣設備種類繁多,有攝像頭,有 ETC 之類的傳感器,各種各樣的架構。有的只能進行初步的簡單推理,而有的新硬件設備則具備高級推理能力。因此,需要面向全國或一個大的省份、片區,對多種邊緣設備進行統一管理。

針對這些需求,青云可以提供 ”中心 + 邊緣“ 統一管理的能力,對算力資源和網絡資源進行統一納管。同時,根據設備的不同算力能力,如攝像頭具備一定的推理能力,而某些終端設備可能不具備高級的推理能力,我們需要使平臺能夠適配終端和邊緣設備,以及平臺上的應用。平臺需要將不同的算力資源匹配到不同的業務場景,以實現算力資源的調度和協調。這就是青云在邊緣場景的智算方案。

金融行業:安全合規與靈活部署

前面談到了智算中心和邊緣計算,這些都是相對新興的領域?,F在來談談傳統領域,首先是金融行業。青云從 2014 年就開始與金融客戶合作,推動數字化轉型。當時還是 CPU 時代,青云就已經深入了解了金融行業對 IT 系統建設的要求、基礎能力需求和基礎框架設定。進入 AI 和 GPU 時代后,青云的產品基因已深深植入金融方案中。

例如安全合規方面,以及國家一直強調的國產供應鏈要求。在智算領域,如何保障智算中心實現硬件合規,是廣大國產設備廠商需要努力的方向。青云則在算力平臺本身,延續了企業云、分布式存儲、容器云平臺上對存儲、算力和網絡的安全保障能力,為金融行業用戶提供符合安全要求的產品。

金融行業最常見的交付方式是私有化部署。這涉及到兩個方面的安全問題:

一是產品能力是否可以根據用戶情況做定制化交付和部署;

二是能否根據用戶體量進行靈活調度。青云在金融行業探索時間較長,既有像四大行、股份制銀行這樣的大體量客戶,也有各省的農商行、農信等中小規??蛻?。從規模上來講有幾百臺、千臺千卡的集群需求,同時也有 1-4 臺的小規模。不論集群規模大小,青云都可以用一套平臺實現多種規模的彈性部署,滿足不同客戶的需求。

具身智能:資源極致利用與安全保障

如今談到 AI,如果不提及自動駕駛和具身智能,就有點脫離行業了。在新興領域,具身智能主要涉及機器人制造。在具身智能領域,我們觀察到的客戶訴求主要有兩個方面:

一是資源的極致利用,因為具身智能有較多場景定制,模型大小不一,對算力的需求也有多有少。同時,與大模型和多模態廠商一樣,他們也非常注重數據的絕對安全。由于對數據安全的要求,他們通常不太接受云服務方式提供算力,而是以中小規模的算力云進行私有化部署。

二是由于新技術廠商競爭激烈,資源往往不足,任務總是超出預期。如何調整需求和任務之間的關系,也非常關鍵。

青云通過一個平臺的管理和調度策略,來解決匹配用戶端的資源錯配問題。此外,在具身智能領域,青云還可以根據用戶的使用習慣,靈活調整平臺相關能力,快速將用戶在開發和產品迭代過程中的 GPU 和智算需求更新到平臺中。

生物醫藥:AI 融合與開發合作

在生物醫藥的專業領域,人員配置通常是生物醫藥或者醫療專業的應用人才,其基礎技術人員主要在上層業務端,對硬件、網絡、存儲只是一知半解。那么,生物醫藥企業也希望擁抱 AI,引入 AI 技術應用到行業,如何來實現呢?青云所推薦的方案有兩個方面:

第一,采用 AI 智算一體機,將硬件和軟件進行整合集成,統一交付給用戶,讓用戶無需擔心底層硬件架構和服務器配置,只需使用算力進行藥物研發工作即可。

第二,在國產化方面,雖然國產化在金融和具身智能領域均有所滲透,但生物醫藥領域,更多平臺仍建立在非國產化平臺之上。借助 AI 進程,希望將國產算力和平臺融入生物醫藥流程中。

更重要的是,生物醫藥領域涉及很多專業應用軟件,青云作為 AI 基礎設施提供商,沒有專業領域的應用軟件開發能力。因此,通過平臺的開放性和穩定性,整合更多面向生物醫藥領域的應用合作伙伴,為藥物研發的合作伙伴或客戶提供服務。

高??蒲校焊咝詢r比與資源管理

在高校和科研領域,AI 需求非常高。如果高校沒有人工智能、模型訓練和推理等相關課程,學生畢業后將面臨很大挑戰,因此高校一定會做和 AI 相關的事情。但高校也面臨一個問題,即 GPU 算力資源價格高,而高校經費有限,無法花費大量預算采購海量算力服務。青云提供的解決方案有以下特點:

第一,青云精心打造的 AI 智算一體機,能夠將硬件性能發揮到極致,同時具備極高的性價比。

第二,可以將所有算力資源,包括算力和存力發揮到每個算力因子,實現算力和存力的劃分,滿足教育教學需求。

第三,針對教學場景,通過青云 AI 智算平臺的統一調度和管理能力,可以在一堂課結束后快速重建環境,服務下一堂教學或課題,實現資源的快速回收和發放。

第四,高校有很多歷史留存的 IT 基礎設施,包括 CPU 資源、傳統虛擬化資源和高性能計算資源。通過青云的混合云能力,可以將這些資源進行整合和管理,實現統一平臺、統一管理,根據不同業務需求調度不同算力,以支撐上層應用和業務。

自動駕駛:數據支撐與車路協同

談到自動駕駛,在場的各位如果是開車來的,很多人駕駛的可能就是新能源汽車。新能源汽車之所以受歡迎,原因之一是北京新能源不限號可以隨便開,二是其技術能力,如市區的自動駕駛、自動領航功能,借助汽車本身的攝像頭和軟件能力實現。

在自動駕駛領域,數據非常重要,主要有兩個維度:一是通過高精地圖,二是通過純視覺收集海量數據,包括地圖數據和傳感器數據,為自動駕駛算法的快速迭代提供支撐。因此,自動駕駛非??粗厥欠裼泻A繑祿闹文芰Α?/strong>

其次,自動駕駛是車路協同的過程,車和路之間的有效協同需要通過模型實現,而模型從中心產生。這就需要車、路和中心三者的有機整合,其基礎是通過平臺對海量數據進行全生命周期管理,在中心進行訓練,在邊緣側進行推理,實現車與中心端的實時交互,以支持自動駕駛的快速迭代。有自動駕駛功能的新能源車,升級同步時會產生很多數據,從而支撐中心端進一步打磨模型。

互聯網:彈性調度與多存儲服務

在互聯網領域,很多人都在嘗試使用 AI。國內常用 kimi、智譜進行英文翻譯或文檔總結,國外可能更多使用 OpenAI 的 ChatGPT、Google 的 Gemini。互聯網領域的 AI 應用面向 To C 端,最典型的特點是有潮汐分布情況,白天使用非常多,晚上資源相對空閑。因此,互聯網需要較高的資源彈性和調度能力。

另一方面,互聯網數據類型多樣化。除了視頻文件,還有大量圖片文件、文本文件,以及其他非結構化文件,數據海量且存放方式多樣。青云為互聯網行業客戶提供服務時,還可以提供多種存儲服務,將各種形式的數據納入青云智算平臺。同時,提供削峰填谷的調度方案,白天發揮最大推理優勢,晚上對任務進行編排,將有限的算力資源分配到不同任務中。

政務:運營調度與國產算力

最后是政務領域。國內投資機構和地方政府建設了大量智算中心,分布在省、市、區縣各級,規模有大有小。如何將這些中心算力有效運營起來,需要一定的工具。國家也看到了這方面的問題,提出東數西算和算力互聯互通政策。

青云在設計 AI 智算平臺時,考慮到了國家的要求和未來發展。首先,針對國產算力,到場的芯片廠商所有智算卡都已在青云平臺管控范圍內。同時,平臺的對接能力能夠統一納管分布在全國各地各省、市、區縣的算力中心。最重要的是,青云有持續可靠的運營團隊和平臺,持續探索政務行業智算中心產生價值的路徑。

總結一下,前面談到了青云針對不同行業、中心以及細分領域的落地方案。AI 的三要素是算力、算法和數據,在此基礎上,還應加上規模這一要素。規??纱罂尚?,可以是中心端也可以是邊緣端。在這個維度里,才涉及到 AI 基礎設施。

青云的基礎設施從中心到邊緣,從小規模到大規模,實現了 AI 全領域、全覆蓋的能力。青云所做的工作是覆蓋上層行業和場景,希望與到會的合作伙伴和線上合作伙伴一起,為中國百行千業的客戶提供 AI 支持和服務能力。

熱門標簽
Ubuntu
邊緣計算
飛騰
教育
超融合
云易捷
數據
存儲
U10000
云服務器
RadonDB
數據庫
復制成功