Beranda Berita Deepseek merilis model bahasa V3 baru yang dapat dijalankan pada perangkat keras...

Berita

Deepseek merilis model bahasa V3 baru yang dapat dijalankan pada perangkat keras konsumen secara gratis

Penulis

26 Maret 2025

Perusahaan AI China Deepseek baru -baru ini dilepaskan Model bahasa besar baru, Deepseek-V3-0324. Model 641-gigabyte dirilis pada platform AI memeluk wajah dengan pra-pengumuman minimal, konsisten dengan praktik perusahaan peluncuran produk yang tenang.

Model ini unik dalam lisensi MIT -nya, memungkinkan penggunaan komersial gratis. Tolok ukur awal menunjukkan bahwa Deepseek-V3-0324 mampu menjalankan perangkat keras kelas konsumen, seperti Apple’s Mac Studio dengan M3 Ultra Chip. AI Ilmuwan Awni Hannun dilaporkan Dapat dicapai untuk mencapai lebih dari 20 token per detik kecepatan pemrosesan menggunakan pengaturan ini. Kemampuan menjalankan model bahasa besar pada perangkat keras lokal di luar rak adalah kebalikan dari cara konvensional untuk memanfaatkan infrastruktur pusat data besar untuk mendukung model AI kelas atas.

🚀 Deepseek-V3-0324 sudah keluar sekarang!

🔹 dorongan besar dalam kinerja penalaran
🔹 keterampilan pengembangan front-end yang lebih kuat
🔹 Kemampuan penggunaan alat yang lebih cerdas

✅ Untuk tugas penalaran non-kompleks, kami sarankan menggunakan V3-cukup matikan “DeepThink”
🔌 Penggunaan API tetap tidak berubah
📜 Model adalah… pic.twitter.com/qvupwcodne

– Deepseek (@deepsek_ai) 25 Maret 2025

Menurut Deepseek, uji coba awal telah menunjukkan peningkatan yang signifikan dibandingkan versi sebelumnya. Model ini telah diuji secara ketat oleh para pemangku kepentingan internal dan telah melakukan dengan sangat baik, mungkin mengungguli semua model yang bersaing dan bahkan mengalahkan Claude Sonnet 3.5 Anthropic pada tugas-tugas yang tidak masuk akal. Namun, tidak seperti model berlangganan gaya sonnet, Deepseek-V3-0324 gratis untuk diunduh dan digunakan.

Secara teknis, model ini adalah arsitektur campuran (MOE). Secara selektif menggunakan sekitar 37 miliar dari 685 miliar parameter per tugas, mendorong efisiensi dengan mengurangi kebutuhan komputasi sambil mempertahankan kinerja. Model ini juga menggunakan teknologi Multi-Head Latent (MLA) dan multi-token prediksi (MTP) yang berkontribusi pada peningkatan retensi konteks dan kecepatan output yang lebih cepat.

Model dapat diakses Melalui Wajah Memeluk, API OpenRouter dan antarmuka obrolan, dan platform obrolan Deepseek jika diinginkan. Penyedia inferensi Hiperbolic Labs juga menawarkan akses ke model.

Source link

Deepseek merilis model bahasa V3 baru yang dapat dijalankan pada perangkat keras konsumen secara gratis

Tulisan Terbaru

Virat Kohli Pensiun: Virat Kohli mengumumkan pensiun tes setelah karir 14...

“Pemain yang Shaken Australia akan dipertahankan …”: Laporan menjatuhkan IPL 2025...

Pada tes pensiun Virat Kohli, reaksi pertama Anushka Sharma: “Ingat air...

‘Tears You Never Tunjukkan’: Perpisahan emosional Anushka Sharma dengan Virat Kohli...

Geoff Parling: Leicester Tigers menunjuk mantan kunci sebagai pelatih kepala baru

Pemeriksaan silang berlanjut untuk pengadu dalam uji coba serangan seks pemain...

Hati Manajer Berikutnya: Derek McInnes, Kevin Keegan atau Steve Bruce?

Virat Kohli Pensiun: Statistik dan Tonggak Karier Uji 14 tahun |...

Ontario Hospitals menghabiskan lebih dari $ 9 miliar untuk staf agensi...

Bagaimana Virat Kohli bernasib di Australia – Kisah Puncak dan Satu...