Beranda Berita Pindah ke Deepseek: Qwen2.5-Max Alibaba melampaui Deepseek-V3 dalam tolok ukur

Berita

Pindah ke Deepseek: Qwen2.5-Max Alibaba melampaui Deepseek-V3 dalam tolok ukur

Penulis

30 Januari 2025

Berita berita untuk minggu lalu telah didominasi oleh Deepseek berkat peluncuran model penalaran barunya, R1, yang meningkatkan tanggapan terhadap pertanyaan. Model non-reasoning utama Deepseek, Deepseek-V3 tiba pada bulan Desember dengan skor tolok ukur yang mengesankan sendiri, tetapi sekarang, perusahaan Cina Alibaba telah merilis Qwen2.5-Max yang melampaui Deepseek-V3, dan dalam beberapa tes GPT-4O-0806 dan Claude-3.5-Sonnet-1022.

Mirip dengan Deepseek, Qwen2.5-Max sangat sensitif tentang masalah politik Tiongkok, bahkan tidak menjawab pertanyaan-pertanyaan itu, pada Obrolan qwenitu hanya mengatakan Anda telah melampaui batas kuota Anda saat Anda mencoba pertanyaan itu, tetapi jawabannya dengan baik saat Anda mengubah topik.

Beberapa tolok ukur yang digunakan Alibaba untuk menguji modelnya terhadap kompetisi termasuk MMLU-PRO, yang menguji pengetahuan melalui masalah tingkat perguruan tinggi, LiveCodebench, yang menilai kemampuan pengkodean, Livebench, yang secara komprehensif menguji kemampuan umum, dan arena-hard, yang mendekati manusia, secara komprehensif menguji kemampuan umum, dan arena-hard, yang mendekati manusia, secara komprehensif menguji pada kemampuan umum, dan arena-hard, yang mendekati manusia secara komprehensif, dan arena-hard, preferensi.

Di Arena-Hard itu datang pertama dengan skor 89,4, pesaing terdekatnya adalah Deepseek-V3 di 85,5. Di MMLU-Pro, Claude Sonnet menang dengan skor 78.0 dibandingkan dengan Qwen2.5-Max 76.1. Itu datang di tempat kedua untuk Claude Sonnet pada patokan GPQA-Diamond dengan skor 60,1, dibandingkan dengan Claude 65,0.

Dalam LiveCodebench, skor 38,7 dibandingkan dengan Claude 38,9. Akhirnya, di Livebench, Qwen menang dengan skor 62.2 dibandingkan dengan 60,5 Deepseek.

Berikut adalah beberapa tolok ukur lain yang dilakukan perusahaan, tetapi tidak dapat menguji beberapa model seperti GPT-4O dan Claude karena sifatnya yang tertutup.

QWEN2.5-MAX baru tersedia melalui API untuk pengembang untuk mengintegrasikannya ke dalam platform mereka dan untuk pengguna akhir, itu dapat diakses melalui Obrolan qwen. Opsi terakhir memungkinkan Anda menggunakan artefak dan melakukan pembuatan gambar atau video. Ada juga tombol untuk mengaktifkan pencarian web, tetapi dikatakan akan segera hadir.

Tidak ada keraguan bahwa para peneliti dari perusahaan teknologi AS akan menambahkan Qwen2.5 terbaru Makalah Penelitian ke daftar bacaan mereka untuk mencari tahu bagaimana mereka dapat lebih mengoptimalkan model mereka sendiri.

Source link

Pindah ke Deepseek: Qwen2.5-Max Alibaba melampaui Deepseek-V3 dalam tolok ukur

Tulisan Terbaru

Mel Maia sedang berkencan dengan juara tinju, kata koran

Link Live Streaming, Prediksi Skor, H2H, Susunan Pemain Barcelona vs Celta...

Berita Olahraga | Pelatih Real Madrid Carlo Ancelotti mengatakan dia akan...

IPL 2025: Abhishek Nayar bergabung kembali dengan staf pendukung Kolkata Knight...

Cissa GuimarÃes berbicara tentang kematian putra bungsu: ‘Saya tidak akan mengatasinya’

Sepeda Motor Ridwan Kamil yang Disita KPK Dipindah

Berita Hiburan | Om Puri bukanlah kutukan tetapi berkah dalam hidup...

Jay Motty Devils ‘penuh waktu di Manchester United menang melawan Lyon

Terkenal karena Goethe, Tavern di Leipzig merayakan 500 tahun

Berita India | Perjanjian Sewa Palsu, Iklan Bogus Mengalir untuk Pencucian...