Tim yang dipimpin Huawei mengklaim telah melatih model DeepSeek dengan 1, 6 triliun parameter
tomshardware. com 6 Juni 2026 PT Shazfatech Digital Solution

Tim yang dipimpin Huawei mengklaim telah melatih model DeepSeek dengan 1, 6 triliun parameter

Sebuah kelompok penelitian yang mencakup Huawei Technologies mengatakan telah menyelesaikan pelatihan pasca-parameter penuh untuk V4-Pro DeepSeek, model dengan parameter 1, 6 triliun.

3 menit baca Komponen PC 3 kali dibaca

Sumber: tomshardware. com

Perkembangan ini menjadi salah satu sorotan penting dalam perkembangan komponen dan performa PC. Sebuah kelompok penelitian yang mencakup Huawei Technologies mengatakan telah menyelesaikan pelatihan pasca-parameter penuh untuk V4-Pro DeepSeek, model dengan parameter 1, 6…

Sebuah kelompok penelitian yang mencakup Huawei Technologies mengatakan telah menyelesaikan pelatihan pasca-parameter penuh untuk V4-Pro DeepSeek, model dengan parameter 1, 6 triliun. Kelompok tersebut menggunakan setidaknya 1.000 chip Huawei Ascend 910C, menurut pemerintah kota Shenzhen, seperti dilansir South China Morning Post.

Pengungkapan ini adalah bukti bahwa akselerator Tiongkok sekarang dapat menangani beban kerja kelas pelatihan pada silikon dalam negeri, bagian dari saluran AI yang paling sulit bagi perusahaan Tiongkok untuk beralih dari perangkat keras Nvidia di bawah kendali ekspor AS. Huawei melaksanakan pekerjaan ini bersama dengan Shenzhen Loop Area Institute, kampus Shenzhen Harbin Institute of Technology, dan Shenzhen Research Institute of Big Data.

Ascend 910C adalah akselerator AI andalan Huawei saat ini, bagian mati ganda yang mengembalikan sekitar 60% kinerja inferensi Nvidia H100 dalam pengujian DeepSeek sebelumnya. Chip Tiongkok cukup kompetitif dalam hal inferensi, yaitu model yang sudah selesai menjawab pertanyaan, namun lemah dalam pelatihan, yaitu bobot model dihitung ulang pada kumpulan data yang besar. Tim mengatakan mereka menjalankan parameter penuh pasca-pelatihan, yang berarti setiap bobot diperbarui, bukan lapisan adaptor tipis yang ditambahkan di atasnya.

Pasca pelatihan pada dasarnya adalah tahap “penyesuaian” yang mengikuti fase pra pelatihan yang jauh lebih besar. Pra-pelatihan membangun kemampuan inti model dengan bekerja melalui corpora teks yang sangat besar, dan dokumentasi DeepSeek menempatkan corpus pra-pelatihan V4-Pro di lebih dari 32 triliun token.

Pasca pelatihan kemudian membentuk perilaku melalui mengikuti instruksi, penyelarasan keselamatan, dan data khusus tugas. Menyelesaikannya pada silikon Ascend adalah hasil nyata untuk platform ini, tetapi hal ini tidak menunjukkan bahwa chip tersebut dapat melakukan pra-pelatihan model terdepan dari awal, yang merupakan pekerjaan yang lebih berat dan mahal.

Pada bulan Agustus lalu, dilaporkan bahwa DeepSeek tidak dapat menyelesaikan satu pun pelatihan yang berhasil untuk model R2-nya di chip Ascend, bahkan dengan para insinyur Huawei di lokasi, menyalahkan kinerja yang tidak stabil, interkoneksi chip-ke-chip yang lambat, dan kesenjangan dalam tumpukan perangkat lunak CANN Huawei, pengganti CUDA Nvidia. Perusahaan kembali menggunakan GPU Nvidia untuk pelatihan dan meninggalkan Ascend pada inferensi. DeepSeek-V4-Pro, dirilis pada bulan April, adalah model DeepSeek pertama yang dibangun berdasarkan Ascend sejak awal.

Secara keseluruhan, perkembangan ini memberi gambaran tentang arah terbaru di perkembangan komponen dan performa PC dan alasan mengapa topik ini tetap relevan untuk terus dipantau.

Baca sumber asli dari tomshardware. com