當一種新型藥物的分子設計周期從 18 個月壓縮至 12 個月,當一款高性能復合材料的微觀結構模擬時間從 72 小時縮短到 43 小時…… “智算 +AI 模型”正在重塑研發創新的速度。青云科技為某專注生命科學及材料科學的大型新制造集團構建的 AI 智算平臺,正在成為其重塑研發范式的創新引擎,單是實驗成本,每年即可節省 4 億元。
打破異構、異地局限,統一調度算力資源
對于布局全國的大型集團而言,各個基地的研發團隊都有 GPU 資源和模型推理的需求,GPU 型號眾多,算力資源的異構與分散管理曾是制約集團創新的隱形壁壘。比如,某個團隊急需算力時,異地資源因調度不暢而無法及時響應,研發效率大受影響。通過青云 AI 智算平臺,集團實現了總部與各研發基地算力資源的統一調度與管理:
● 實現跨區域、跨型號 GPU 資源的統一納管,研發人員無論身處何地,都能通過同一平臺賬號,按需獲取智算資源與服務,即來即用。
● 如果有新部署的算力集群,集團可在 48 小時內完成調試并納入全局調度體系,確保在擴容時,算力與服務能快速上線。
● 跨區域數據傳輸與模型協同效率提升 60%,讓團隊間的協作更順暢。
靈活支撐復雜科研場景,GPU 利用率大幅提升
醫藥分子動力學模擬、新材料微觀結構分析等高度依賴 GPU 算力(包括AI算力、HPC算力)的場景,往往伴隨著復雜的運行環境。通過青云AI智算平臺,集團在確保復雜科研場景順暢運行的同時,大幅提升了 GPU 利用率:
● 采用業界領先的 GPU 虛擬化技術,在保證計算性能損失率低于 5% 的前提下,實現 GPU 資源的精細化分配與高效利用。
● 通過GPU 算力切分與共享,讓 GPU 資源不再閑置。研發人員可根據任務需求申請 1/4、1/2 、1/8 卡的算力,小任務無需等待整塊顯卡空閑,大任務可聚合多卡算力協同處理。
● 通過預置醫藥研發、材料科學等領域的專用鏡像庫,實現分鐘級的開發、訓練環境啟動。比如,從登錄平臺到開始分子動力學模擬,整個過程從原來的 2 小時縮短至 15 分鐘。
集團統一運營運維,管理更省心
在多區域、多場景的算力服務體系中,高效的運維運營能力是平臺穩定運轉的核心保障。通過青云 AI 智算平臺,集團實現了流程自動化的提升,管理更省心:
● 管理員通過直觀易用的界面,完成配額設置與管理、資源分配策略調整等運營工作,對資源使用情況、硬件設備的運行狀態、系統性能等指標實時掌控。
● 在故障處理方面,平臺內置的 1000+ 故障特征庫能精準識別問題,一旦發現異常,系統會通過短信、郵件、平臺通知等多渠道及時發出告警,提供詳細的故障定位信息,常見問題實現分鐘級自愈,將故障對研發工作的影響降到最低。
AI 智算平臺的上線,給集團的業務創新提供了穩定、高效的支撐:對于科研團隊而言,減少了等待算力、調試環境的時間,跨研發基地的模型協同也不再受地域限制;對集團管理來說,分散的 GPU 資源被盤活,算力利用率提升帶來了成本優化,運維團隊從重復排障中解放出來,能夠更專注地支撐核心研發需求。