[China, Shenzhen, 14 Julai, 2023] Hari ini, Huawei melancarkan penyelesaian storan AI baharunya untuk era model berskala besar, menyediakan penyelesaian storan optimum untuk latihan model asas, latihan model khusus industri dan inferens dalam senario tersegmen, dengan itu melancarkan keupayaan AI baharu.
Dalam pembangunan dan pelaksanaan aplikasi model berskala besar, perusahaan menghadapi empat cabaran utama:
Pertama, masa yang diperlukan untuk penyediaan data adalah panjang, sumber data berselerak, dan pengagregatan adalah perlahan, mengambil masa kira-kira 10 hari untuk prapemprosesan ratusan terabait data. Kedua, untuk model besar berbilang modal dengan set data teks dan imej yang besar, kelajuan pemuatan semasa untuk fail kecil besar adalah kurang daripada 100MB/s, menghasilkan kecekapan yang rendah untuk pemuatan set latihan. Ketiga, pelarasan parameter yang kerap untuk model besar, bersama-sama dengan platform latihan yang tidak stabil, menyebabkan gangguan latihan kira-kira setiap 2 hari, yang memerlukan mekanisme Checkpoint untuk menyambung semula latihan, dengan pemulihan mengambil masa lebih sehari. Akhir sekali, ambang pelaksanaan yang tinggi untuk model besar, persediaan sistem yang kompleks, cabaran penjadualan sumber dan penggunaan sumber GPU selalunya di bawah 40%.
Huawei menyelaraskan dengan trend pembangunan AI dalam era model berskala besar, menawarkan penyelesaian yang disesuaikan untuk industri dan senario yang berbeza. Ia memperkenalkan OceanStor A310 Deep Learning Data Lake Storage dan FusionCube A3000 Training/Inference Super-Converged Appliance. OceanStor A310 Deep Learning Data Lake Storage menyasarkan kedua-dua senario tasik data model besar asas dan peringkat industri, mencapai pengurusan data AI yang komprehensif daripada pengagregatan data, prapemprosesan kepada latihan model dan aplikasi inferens. OceanStor A310, dalam rak 5U tunggal, menyokong lebar jalur 400GB/s terkemuka industri dan sehingga 12 juta IOPS, dengan kebolehskalaan linear sehingga 4096 nod, membolehkan komunikasi silang protokol yang lancar. Sistem Fail Global (GFS) memudahkan penjalinan data pintar merentas wilayah, memperkemas proses pengagregatan data. Pengkomputeran storan hampir merealisasikan prapemprosesan data hampir, mengurangkan pergerakan data dan meningkatkan kecekapan prapemprosesan sebanyak 30%.
FusionCube A3000 Training/Inference Super-Converged Appliance, direka untuk latihan model besar/senario inferens peringkat industri, memenuhi keperluan aplikasi yang melibatkan model dengan berbilion parameter. Ia menyepadukan nod storan berprestasi tinggi OceanStor A300, nod latihan/inferens, peralatan pensuisan, perisian platform AI dan perisian pengurusan dan operasi, menyediakan rakan kongsi model besar dengan pengalaman penggunaan plug-and-play untuk penghantaran sehenti. Sedia untuk digunakan, ia boleh digunakan dalam masa 2 jam. Kedua-dua latihan/inferens dan nod storan boleh dikembangkan secara bebas dan mendatar untuk memadankan pelbagai keperluan skala model. Sementara itu, FusionCube A3000 menggunakan bekas berprestasi tinggi untuk membolehkan latihan model berbilang dan tugas inferens untuk berkongsi GPU, meningkatkan penggunaan sumber daripada 40% kepada lebih 70%. FusionCube A3000 menyokong dua model perniagaan yang fleksibel: Huawei Ascend One-Stop Solution dan rakan kongsi penyelesaian sehenti pihak ketiga dengan pengkomputeran terbuka, rangkaian dan perisian platform AI.
Presiden Barisan Produk Penyimpanan Data Huawei, Zhou Yuefeng, menyatakan, “Dalam era model berskala besar, data menentukan ketinggian kecerdasan AI. Sebagai pembawa data, storan data menjadi infrastruktur asas utama untuk model berskala besar AI. Penyimpanan Data Huawei akan terus berinovasi, menyediakan penyelesaian dan produk yang pelbagai untuk era model besar AI, bekerjasama dengan rakan kongsi untuk memacu pemerkasaan AI merentas pelbagai industri.”
Masa siaran: Ogos-01-2023