tomshardware. com 6 Juni 2026 PT Shazfatech Digital Solution

Tim yang dipimpin Huawei mengklaim telah melatih model DeepSeek dengan 1, 6 triliun parameter

Sebuah kelompok penelitian yang mencakup Huawei Technologies mengatakan telah menyelesaikan pelatihan pasca-parameter penuh untuk V4-Pro DeepSeek, model dengan parameter 1, 6 triliun.

3 menit baca Komponen PC 3 kali dibaca

Sumber: tomshardware. com

Insight ini dipublikasikan oleh PT Shazfatech Digital Solution dengan brand ShazfaTech. Sumber asli tetap dicantumkan agar pembaca dapat menelusuri referensi utama dan konteks artikel secara lebih utuh.

Perkembangan ini menjadi salah satu sorotan penting dalam perkembangan komponen dan performa PC. Sebuah kelompok penelitian yang mencakup Huawei Technologies mengatakan telah menyelesaikan pelatihan pasca-parameter penuh untuk V4-Pro DeepSeek, model dengan parameter 1, 6…

Sebuah kelompok penelitian yang mencakup Huawei Technologies mengatakan telah menyelesaikan pelatihan pasca-parameter penuh untuk V4-Pro DeepSeek, model dengan parameter 1, 6 triliun. Kelompok tersebut menggunakan setidaknya 1.000 chip Huawei Ascend 910C, menurut pemerintah kota Shenzhen, seperti dilansir South China Morning Post.

Pengungkapan ini adalah bukti bahwa akselerator Tiongkok sekarang dapat menangani beban kerja kelas pelatihan pada silikon dalam negeri, bagian dari saluran AI yang paling sulit bagi perusahaan Tiongkok untuk beralih dari perangkat keras Nvidia di bawah kendali ekspor AS. Huawei melaksanakan pekerjaan ini bersama dengan Shenzhen Loop Area Institute, kampus Shenzhen Harbin Institute of Technology, dan Shenzhen Research Institute of Big Data.

Ascend 910C adalah akselerator AI andalan Huawei saat ini, bagian mati ganda yang mengembalikan sekitar 60% kinerja inferensi Nvidia H100 dalam pengujian DeepSeek sebelumnya. Chip Tiongkok cukup kompetitif dalam hal inferensi, yaitu model yang sudah selesai menjawab pertanyaan, namun lemah dalam pelatihan, yaitu bobot model dihitung ulang pada kumpulan data yang besar. Tim mengatakan mereka menjalankan parameter penuh pasca-pelatihan, yang berarti setiap bobot diperbarui, bukan lapisan adaptor tipis yang ditambahkan di atasnya.

Pasca pelatihan pada dasarnya adalah tahap “penyesuaian” yang mengikuti fase pra pelatihan yang jauh lebih besar. Pra-pelatihan membangun kemampuan inti model dengan bekerja melalui corpora teks yang sangat besar, dan dokumentasi DeepSeek menempatkan corpus pra-pelatihan V4-Pro di lebih dari 32 triliun token.

Pasca pelatihan kemudian membentuk perilaku melalui mengikuti instruksi, penyelarasan keselamatan, dan data khusus tugas. Menyelesaikannya pada silikon Ascend adalah hasil nyata untuk platform ini, tetapi hal ini tidak menunjukkan bahwa chip tersebut dapat melakukan pra-pelatihan model terdepan dari awal, yang merupakan pekerjaan yang lebih berat dan mahal.

Pada bulan Agustus lalu, dilaporkan bahwa DeepSeek tidak dapat menyelesaikan satu pun pelatihan yang berhasil untuk model R2-nya di chip Ascend, bahkan dengan para insinyur Huawei di lokasi, menyalahkan kinerja yang tidak stabil, interkoneksi chip-ke-chip yang lambat, dan kesenjangan dalam tumpukan perangkat lunak CANN Huawei, pengganti CUDA Nvidia. Perusahaan kembali menggunakan GPU Nvidia untuk pelatihan dan meninggalkan Ascend pada inferensi. DeepSeek-V4-Pro, dirilis pada bulan April, adalah model DeepSeek pertama yang dibangun berdasarkan Ascend sejak awal.

Secara keseluruhan, perkembangan ini memberi gambaran tentang arah terbaru di perkembangan komponen dan performa PC dan alasan mengapa topik ini tetap relevan untuk terus dipantau.

Baca sumber asli dari tomshardware. com

Lihat Semua Artikel Tentang Redaksi Kebijakan Editorial Profil Publisher Kontak Privasi

Topik yang Berhubungan

Pesawat pusat data orbital generasi pertama Elon Musk memiliki jangkauan yang lebih luas dari Boeing 747 dan

Yang Paling Sering Dibaca

Chrome untuk Mac memecahkan rekor benchmark pada MacBook Pro terbaru

Tim yang dipimpin Huawei mengklaim telah melatih model DeepSeek dengan 1, 6 triliun parameter

Topik yang Berhubungan

Pesawat pusat data orbital generasi pertama Elon Musk memiliki jangkauan yang lebih luas dari Boeing 747 dan

Ulasan Razer Seiren V3 Pro: USB, XLR, dan float 32-bit

Peringatan Anthropic mengenai pengembangan AI memiliki pesan tersembunyi

Yang Paling Sering Dibaca

Chrome untuk Mac memecahkan rekor benchmark pada MacBook Pro terbaru

Cara yang lebih baik untuk menggunakan Gemini di Mac

Hewan peliharaan Lil Finder Guy adalah pintu gerbang untuk membuat aplikasi Mac saya sendiri dengan Codex

Tim yang dipimpin Huawei mengklaim telah melatih model DeepSeek dengan 1, 6 triliun parameter

Bacaan Lanjutan Seputar Komponen PC

Topik yang Berhubungan

Pesawat pusat data orbital generasi pertama Elon Musk memiliki jangkauan yang lebih luas dari Boeing 747 dan

Ulasan Razer Seiren V3 Pro: USB, XLR, dan float 32-bit

Peringatan Anthropic mengenai pengembangan AI memiliki pesan tersembunyi

Yang Paling Sering Dibaca

Chrome untuk Mac memecahkan rekor benchmark pada MacBook Pro terbaru

Cara yang lebih baik untuk menggunakan Gemini di Mac

Hewan peliharaan Lil Finder Guy adalah pintu gerbang untuk membuat aplikasi Mac saya sendiri dengan Codex