NVIDIA RoCE Network 交換機實戰教學
活動日期:
Jun. 20, 2024
活動地點:
茂綸股份有限公司6F
報名截止日:2024/06/18(額滿為止)
NVIDIA RoCE Network 交換機實戰教學
本課程將介紹與實作 RoCEv2(RDMA over Converged Ethernet version 2)技術的高性能網路交換機設定!
這是為了滿足當代 AI 和機器學習工作負載對於低延遲和高吞吐量的需求。
透過 NVIDIA 網路交換機的設定,參與者將學習如何構建一個既能支持大規模 AI/ML 模型訓練又能處理高速數據傳輸的網絡環境。
AI/ML-Ready RoCE Network指的是一種準備好應用於人工智慧(AI)和機器學習(ML)工作負載的RoCE(RDMA over Converged Ethernet)網絡。這種網絡基於RDMA技術,它允許數據在計算機之間進行高效、低延遲的直接傳輸,而無需CPU參與。這對於需要處理大量數據並要求高性能計算的AI和ML應用非常重要。
以下是一些AI/ML-Ready RoCE Network的內容要點:
- RoCE技術:RDMA over Converged Ethernet(RoCE)是一種將RDMA技術應用於乙太網(Ethernet)上的協議。它允許計算機之間通過以太網進行高性能、低延遲的數據通信。
- 低延遲:對於AI和ML工作負載,低延遲是至關重要的,因為它可以確保計算機之間的數據傳輸速度快,從而加速訓練和推理過程。
- 高帶寬:AI和ML工作負載通常需要處理大量的數據。因此,具有高帶寬的網絡可以確保在計算機之間快速傳輸大量數據,這是實現高性能計算的關鍵。
- 可擴展性:AI和ML工作負載可能需要使用大量的計算資源,因此,網絡需要具有良好的擴展性,以支持在需要時添加更多計算機和網絡設備。
- 優化的軟件堆棧:AI/ML-Ready RoCE Network通常會與優化的軟件堆棧搭配使用,以確保網絡和應用之間的最佳性能。
總的來說,AI/ML-Ready RoCE Network提供了一個針對AI和ML工作負載優化的高性能、低延遲的網絡基礎設施,有助於加速數據處理和計算運算。
講師介紹
茂綸股份有限公司 應用工程經理 Jeffrey Huang
研討會流程
Prerequisite(s):上課前請先完成註冊 NVIDIA Air 帳號
- Unit 1:如何設定 RoCEv2 L2/L3
此單元中,參與者將學習如何配置RoCEv2以支持第二層(L2)和第三層(L3)通訊。
這一部分將涵蓋關鍵配置步驟和最佳實踐,以保證數據在高速傳輸過程中的可靠性和完整性。 - Unit 2:如何驗證 RoCEv2
此單元中,參與者將通過實際演練學習如何確認他們的設定是否正確,包括如何進行性能測試和故障排除。
這一階段對於確保網絡設定能夠滿足AI/ML應用的需求至關重要。 - Unit 3:Q&A
最後單元中,參與者可以一起開放性討論,從而加深對於如何設定和驗證AI/ML-Ready RoCE網絡的理解。
研討會適合對象
經銷商合作夥伴&進階使用客戶群
※ 活動位置備註:茂綸股份有限公司位於台北矽谷一期大樓,請於活動當天搭手扶梯到2樓後右轉,再轉搭電梯至6樓