久久亚洲精品无码VA大香大香,亚洲精品无码久久久,亚洲A∨无码无在线观看

11月28日消息，線程摩爾線程正式發布了PyTorch深度學習框架的發布最新版MUSA擴展庫——Torch-MUSA v2.7.0，在功能集成、線程性能優化、發布硬件支持上都實現了進一步突破。線程

值得一提的發布是，在短短一個月內，線程Torch-MUSA就連續完成了v2.5.0、發布v2.7.0兩次版本更新。線程

另外一個變化就是發布，v2.5.0版本起，線程Torch-MUSA版本號與PyTorch主版本號保持同步，發布便于開發者進行版本識別與管理。線程

v2.7.0版本進一步集成了muSolver、發布muFFT等計算加速庫，線程顯著提升復雜計算任務的執行效率；

新增支持統一內存設備（Unified Memory）的UMM，有效優化內存使用效率。

繼續保持與最新MUSA SDK的兼容性，支持使用MUSA SDK 4.2.0至4.3.0及更高版本進行編譯。

目前，Torch-MUSA專屬支持的算子總數已超過1050個，系統在性能與穩定性方面均實現進一步提升，為大模型訓練與推理提供了更高效、更可靠的底層支持。

下一次版本升級將是v2.9.0，進一步優化性能與功能，持續構建和完善基于MUSA架構國產全功能GPU的深度學習生態。

▼ Torch-MUSA開源地址：

https://github.com/MooreThreads/torch_musa

v2.7.0版本主要更新內容

新增特性

▼ 動態雙精度轉換（Dynamic Double Cast）

用戶可通過設置環境變量export TORCH_USE_MUSA_DOUBLE_CAST=1，開啟Float64數據類型算子的動態轉換功能，torch_musa將使用float32作為計算數據類型。

▼ 分布式檢查點（Distributed Checkpoint）

支持從多個rank并行加載和保存模型，顯著加速檢查點的保存與加載過程。目前已支持分布式檢查點的異步保存功能。

功能增強

▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample（1d、2d、3d、with aa）、flash_attention、transformer_encoder_layer 等多個實用算子，MUSA專屬支持的算子總數突破1050個。

▼ 通過升級PyTorch底層支持，torch.compile與AOTInductor功能進一步增強；

▼ 默認啟用TF32計算模式，提升浮點運算效率；

▼ 優化性能分析工具Kineto的穩定性，并將其適配版本升級至2.7.0；

▼ 繼續優化FSDP2流水線并行策略，進一步降低內存占用。

v2.5.0版本主要更新內容

新增特性

▼ 新增muFFT與muSolver庫集成，大幅擴展計算能力；

▼ 在面向邊緣計算的SoC設備中支持統一內存管理，基于Arm 架構的UMA（統一內存尋址）設計，實現GPU與CPU共享同一物理內存空間，顯著降低模型運行過程中的內存開銷，具體包括：

消除GPU端重復內存分配；

減少主機與設備間的內存拷貝；

GPU可直接訪問由CPU分配器申請的內存空間。

算子擴展與性能優化

▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多個算子；

▼ 新增基礎 Sparse(CSR) 操作支持；

▼ 擴充量化算子支持范圍；

▼ 修復torch.norm形狀錯誤問題；

▼ 支持reduce_sum的uint8輸入與int64輸出；

▼ C++擴展新增支持tensor.is_musa()方法；

▼ 修復空輸入下argmax/argmin的異常行為；

▼ 優化var/std、pad、convolution3d、layer_norm等操作的執行效率。

系統功能增強

▼ 開放torch.musa.mccl.version()接口；

▼ 支持getCurrentMUSABlasHandle與getCurrentMUSABlasLtHandle；

▼ 優化FSDP2流水線并行策略，降低訓練內存占用。

作者:熱點

国产办公室秘书无码精品99_免费无码中文字幕A级毛片_AA区一区二区三无码精片_久久青青草原亚洲av无码app

摩爾線程發布Torch