Silicon Valley penuh dengan optimisme tentang Agen ai.
Dalam istilah dasar, teknologi dapat menyelesaikan masalah, menjalankan tugas, dan tumbuh lebih pintar saat belajar dari lingkungannya. Agen seperti a asisten virtualsesuatu yang kebanyakan pekerja bermimpi memiliki. Mereka sudah menggunakannya untuk memesan penerbangan, mengumpulkan data, merangkum laporan, dan bahkan membuat keputusan.
Tetapi agen jauh dari sempurna, dan bukan hanya kesalahan dan halusinasi yang masih biasa, mereka semakin buruk, semakin banyak mereka digunakan.
Perusahaan sekarang menggunakan agen untuk mengotomatisasi rumit, multi-langkah tugas. Alat baru telah muncul untuk memungkinkan itu. Regie AI menggunakan “agen penjualan pilot otomatis” untuk secara otomatis menemukan prospek, menyusun email yang dipersonalisasi, dan menindaklanjuti dengan pembeli. Kognisi AI membuat agen bernama Devin yang melakukan tugas rekayasa yang kompleks. Firma Layanan Profesional Empat Besar PWC diluncurkan “agen“Platform yang memudahkan agen untuk berkomunikasi satu sama lain untuk melaksanakan tugas.
Tetapi semakin banyak langkah yang diambil agen untuk menyelesaikan tugas, semakin besar kemungkinan tingkat kesalahannya – persentase output yang salah – akan berdampak pada hasilnya. Beberapa Proses agen dapat memiliki sebanyak 100 langkah atau lebih, menurut Patronus AI, startup yang membantu perusahaan mengevaluasi dan mengoptimalkan teknologi AI.
Patronus AI mengukur risiko dan kehilangan pendapatan yang disebabkan oleh kesalahan agen AI. Temuannya mengkonfirmasi kebenaran yang akrab – dengan kekuatan besar muncul tanggung jawab besar.
“Kesalahan pada setiap langkah dapat menggagalkan seluruh tugas. Semakin banyak langkah yang terlibat, semakin tinggi kemungkinan ada sesuatu yang salah pada akhirnya,” tulis perusahaan di blognya. Ini membangun model statistik yang menemukan bahwa agen dengan tingkat kesalahan 1% per langkah dapat bertambah dengan peluang kesalahan 63% pada langkah ke -100.
Pertumbuhan Scaleai Timbal Quintin Au mengatakan tingkat kesalahan jauh lebih tinggi di alam liar.
“Saat ini, setiap kali AI melakukan tindakan, ada sekitar 20% peluang kesalahan (beginilah cara kerja LLMS, kami tidak dapat mengharapkan akurasi 100%),” tulisnya dalam sebuah posting di LinkedIn tahun lalu. “Jika seorang agen perlu menyelesaikan 5 tindakan untuk menyelesaikan tugas, hanya ada peluang 32% itu mendapatkan setiap langkah yang benar.”
CEO DeepMind Demis Hassabis mengatakan pada acara baru -baru ini untuk memikirkan tingkat kesalahan seperti “bunga majemuk,” menurut Computer Weekly. Pada saat itu bekerja melalui 5.000 langkah yang dibutuhkan untuk menjalankan tugas di dunia nyata, probabilitas itu benar bisa acak.
“Di dunia nyata, Anda tidak memiliki informasi yang sempurna,” kata Hassabis di acara tersebut, menurut Computer Weekly. “Ada informasi tersembunyi yang tidak kita ketahui, jadi kita membutuhkan model AI yang dapat memahami dunia di sekitar kita.”
Probabilitas kegagalan yang lebih tinggi untuk agen AI berarti bahwa perusahaan memiliki risiko lebih besar kehilangan pelanggan akhir mereka.
Berita baiknya adalah itu pagar pembatas – – filter, aturan, dan alat yang dapat digunakan untuk mengidentifikasi dan menghapus konten yang tidak akurat – – dapat membantu mengurangi tingkat kesalahan. Perbaikan kecil “dapat menghasilkan pengurangan outsized dalam probabilitas kesalahan,” kata Patronus AI dalam jabatannya.
CEO Patronus AI Anand Kannappan mengatakan kepada BI bahwa pagar pembatas bisa sesederhana pemeriksaan tambahan untuk memastikan agen tidak gagal saat mereka beroperasi. Mereka dapat “mencegah agen dari melanjutkan atau meminta agen untuk mencoba lagi,” katanya.
“Itu sebabnya sangat penting untuk mengukur kinerja dengan hati -hati dan holistik,” Douwe Kiela, penasihat Patronus AI dan salah satu pendiri AI kontekstual, kepada BI dalam pesan LinkedIn.