NVIDIA RoCE Network 交換機實戰教學

活動日期: Jun. 20, 2024
活動地點: 茂綸股份有限公司6F

報名截止日:2024/06/18(額滿為止)

NVIDIA RoCE Network 交換機實戰教學

本課程將介紹與實作 RoCEv2(RDMA over Converged Ethernet version 2)技術的高性能網路交換機設定!

這是為了滿足當代 AI 和機器學習工作負載對於低延遲和高吞吐量的需求。

透過 NVIDIA 網路交換機的設定,參與者將學習如何構建一個既能支持大規模 AI/ML 模型訓練又能處理高速數據傳輸的網絡環境。

AI/ML-Ready RoCE Network指的是一種準備好應用於人工智慧(AI)和機器學習(ML)工作負載的RoCE(RDMA over Converged Ethernet)網絡。這種網絡基於RDMA技術,它允許數據在計算機之間進行高效、低延遲的直接傳輸,而無需CPU參與。這對於需要處理大量數據並要求高性能計算的AI和ML應用非常重要。

 

以下是一些AI/ML-Ready RoCE Network的內容要點:

  • RoCE技術:RDMA over Converged Ethernet(RoCE)是一種將RDMA技術應用於乙太網(Ethernet)上的協議。它允許計算機之間通過以太網進行高性能、低延遲的數據通信。
  • 低延遲:對於AI和ML工作負載,低延遲是至關重要的,因為它可以確保計算機之間的數據傳輸速度快,從而加速訓練和推理過程。
  • 高帶寬:AI和ML工作負載通常需要處理大量的數據。因此,具有高帶寬的網絡可以確保在計算機之間快速傳輸大量數據,這是實現高性能計算的關鍵。
  • 可擴展性:AI和ML工作負載可能需要使用大量的計算資源,因此,網絡需要具有良好的擴展性,以支持在需要時添加更多計算機和網絡設備。
  • 優化的軟件堆棧:AI/ML-Ready RoCE Network通常會與優化的軟件堆棧搭配使用,以確保網絡和應用之間的最佳性能。

總的來說,AI/ML-Ready RoCE Network提供了一個針對AI和ML工作負載優化的高性能、低延遲的網絡基礎設施,有助於加速數據處理和計算運算。

講師介紹

茂綸股份有限公司 應用工程經理 Jeffrey Huang

研討會流程

Prerequisite(s):上課前請先完成註冊 NVIDIA Air 帳號

  • Unit 1:如何設定 RoCEv2 L2/L3
    此單元中,參與者將學習如何配置RoCEv2以支持第二層(L2)和第三層(L3)通訊。
    這一部分將涵蓋關鍵配置步驟和最佳實踐,以保證數據在高速傳輸過程中的可靠性和完整性。
  • Unit 2:如何驗證 RoCEv2
    此單元中,參與者將通過實際演練學習如何確認他們的設定是否正確,包括如何進行性能測試和故障排除。
    這一階段對於確保網絡設定能夠滿足AI/ML應用的需求至關重要。
  • Unit 3:Q&A
    最後單元中,參與者可以一起開放性討論,從而加深對於如何設定和驗證AI/ML-Ready RoCE網絡的理解。

研討會適合對象

經銷商合作夥伴&進階使用客戶群

※ 活動位置備註:茂綸股份有限公司位於台北矽谷一期大樓,請於活動當天搭手扶梯到2樓後右轉,再轉搭電梯至6樓