Perusahaan AI China Deepseek baru -baru ini dilepaskan Model bahasa besar baru, Deepseek-V3-0324. Model 641-gigabyte dirilis pada platform AI memeluk wajah dengan pra-pengumuman minimal, konsisten dengan praktik perusahaan peluncuran produk yang tenang.
Model ini unik dalam lisensi MIT -nya, memungkinkan penggunaan komersial gratis. Tolok ukur awal menunjukkan bahwa Deepseek-V3-0324 mampu menjalankan perangkat keras kelas konsumen, seperti Apple’s Mac Studio dengan M3 Ultra Chip. AI Ilmuwan Awni Hannun dilaporkan Dapat dicapai untuk mencapai lebih dari 20 token per detik kecepatan pemrosesan menggunakan pengaturan ini. Kemampuan menjalankan model bahasa besar pada perangkat keras lokal di luar rak adalah kebalikan dari cara konvensional untuk memanfaatkan infrastruktur pusat data besar untuk mendukung model AI kelas atas.
🚀 Deepseek-V3-0324 sudah keluar sekarang!
🔹 dorongan besar dalam kinerja penalaran
🔹 keterampilan pengembangan front-end yang lebih kuat
🔹 Kemampuan penggunaan alat yang lebih cerdas✅ Untuk tugas penalaran non-kompleks, kami sarankan menggunakan V3-cukup matikan “DeepThink”
🔌 Penggunaan API tetap tidak berubah
📜 Model adalah… pic.twitter.com/qvupwcodne– Deepseek (@deepsek_ai) 25 Maret 2025
Menurut Deepseek, uji coba awal telah menunjukkan peningkatan yang signifikan dibandingkan versi sebelumnya. Model ini telah diuji secara ketat oleh para pemangku kepentingan internal dan telah melakukan dengan sangat baik, mungkin mengungguli semua model yang bersaing dan bahkan mengalahkan Claude Sonnet 3.5 Anthropic pada tugas-tugas yang tidak masuk akal. Namun, tidak seperti model berlangganan gaya sonnet, Deepseek-V3-0324 gratis untuk diunduh dan digunakan.
Secara teknis, model ini adalah arsitektur campuran (MOE). Secara selektif menggunakan sekitar 37 miliar dari 685 miliar parameter per tugas, mendorong efisiensi dengan mengurangi kebutuhan komputasi sambil mempertahankan kinerja. Model ini juga menggunakan teknologi Multi-Head Latent (MLA) dan multi-token prediksi (MTP) yang berkontribusi pada peningkatan retensi konteks dan kecepatan output yang lebih cepat.
Model dapat diakses Melalui Wajah Memeluk, API OpenRouter dan antarmuka obrolan, dan platform obrolan Deepseek jika diinginkan. Penyedia inferensi Hiperbolic Labs juga menawarkan akses ke model.