Berita berita untuk minggu lalu telah didominasi oleh Deepseek berkat peluncuran model penalaran barunya, R1, yang meningkatkan tanggapan terhadap pertanyaan. Model non-reasoning utama Deepseek, Deepseek-V3 tiba pada bulan Desember dengan skor tolok ukur yang mengesankan sendiri, tetapi sekarang, perusahaan Cina Alibaba telah merilis Qwen2.5-Max yang melampaui Deepseek-V3, dan dalam beberapa tes GPT-4O-0806 dan Claude-3.5-Sonnet-1022.
Mirip dengan Deepseek, Qwen2.5-Max sangat sensitif tentang masalah politik Tiongkok, bahkan tidak menjawab pertanyaan-pertanyaan itu, pada Obrolan qwenitu hanya mengatakan Anda telah melampaui batas kuota Anda saat Anda mencoba pertanyaan itu, tetapi jawabannya dengan baik saat Anda mengubah topik.
Beberapa tolok ukur yang digunakan Alibaba untuk menguji modelnya terhadap kompetisi termasuk MMLU-PRO, yang menguji pengetahuan melalui masalah tingkat perguruan tinggi, LiveCodebench, yang menilai kemampuan pengkodean, Livebench, yang secara komprehensif menguji kemampuan umum, dan arena-hard, yang mendekati manusia, secara komprehensif menguji kemampuan umum, dan arena-hard, yang mendekati manusia, secara komprehensif menguji pada kemampuan umum, dan arena-hard, yang mendekati manusia secara komprehensif, dan arena-hard, preferensi.
Di Arena-Hard itu datang pertama dengan skor 89,4, pesaing terdekatnya adalah Deepseek-V3 di 85,5. Di MMLU-Pro, Claude Sonnet menang dengan skor 78.0 dibandingkan dengan Qwen2.5-Max 76.1. Itu datang di tempat kedua untuk Claude Sonnet pada patokan GPQA-Diamond dengan skor 60,1, dibandingkan dengan Claude 65,0.
Dalam LiveCodebench, skor 38,7 dibandingkan dengan Claude 38,9. Akhirnya, di Livebench, Qwen menang dengan skor 62.2 dibandingkan dengan 60,5 Deepseek.
Berikut adalah beberapa tolok ukur lain yang dilakukan perusahaan, tetapi tidak dapat menguji beberapa model seperti GPT-4O dan Claude karena sifatnya yang tertutup.
QWEN2.5-MAX baru tersedia melalui API untuk pengembang untuk mengintegrasikannya ke dalam platform mereka dan untuk pengguna akhir, itu dapat diakses melalui Obrolan qwen. Opsi terakhir memungkinkan Anda menggunakan artefak dan melakukan pembuatan gambar atau video. Ada juga tombol untuk mengaktifkan pencarian web, tetapi dikatakan akan segera hadir.
Tidak ada keraguan bahwa para peneliti dari perusahaan teknologi AS akan menambahkan Qwen2.5 terbaru Makalah Penelitian ke daftar bacaan mereka untuk mencari tahu bagaimana mereka dapat lebih mengoptimalkan model mereka sendiri.