Mitos Kesaktian AI Runtuh di Lapangan Hijau: Mengapa Model Tercanggih Sekalipun Gagal Prediksi Skor Bola?
TotoNews — Di balik kecanggihannya memecahkan kode pemrograman rumit atau menulis esai panjang dalam hitungan detik, sistem kecerdasan buatan (AI) paling mutakhir di dunia ternyata masih ‘babak belur’ saat dihadapkan pada ketidakpastian dunia nyata. Sebuah fenomena menarik terungkap dari penelitian terbaru yang menguji ketangguhan model bahasa besar dalam menebak hasil pertandingan sepak bola.
Startup asal London, General Reasoning, baru-baru ini melakukan pengujian ketat terhadap jajaran sistem AI elit dari raksasa teknologi dunia, mulai dari Google, OpenAI, Anthropic, hingga xAI milik Elon Musk. Dalam pengujian tersebut, mereka ditugaskan untuk memprediksi hasil pertandingan Premier League musim 2023-2024. Namun, hasilnya jauh dari kata memuaskan; seluruh model AI tersebut secara konsisten mencatatkan kerugian finansial yang signifikan dalam simulasi taruhan.
Gebrakan Transmart Full Day Sale: Mesin Cuci Front Load 7KG Turun Drastis Jadi Rp3 Jutaan!
Jurang Pemisah Antara Teori dan Realita
Temuan ini menjadi sinyal kuat bahwa model frontier papan atas sekalipun masih sering goyah saat harus beroperasi di lingkungan yang dinamis dan penuh variabel tak terduga. Padahal, dalam tugas-tugas yang bersifat statis seperti pengembangan software, AI telah menunjukkan kemajuan yang luar biasa pesat.
Laporan penelitian yang dinamai KellyBench ini menciptakan ulang seluruh ekosistem musim sepak bola secara virtual. Setiap sistem AI disuplai dengan data historis yang sangat detail serta statistik tim yang komprehensif. Mereka diminta untuk merancang strategi taruhan guna memaksimalkan keuntungan sekaligus mengelola risiko. Selama proses ini, koneksi internet mereka diputus sepenuhnya untuk memastikan penalaran murni, dan setiap model diberi tiga kali kesempatan untuk membuktikan kemampuannya mencetak profit.
Alasan Dibalik Strategi Samsung: Mengapa Galaxy A57 Pilih Ultrawide Dibandingkan Telephoto?
Rapor Merah Para Raksasa Teknologi
Hasilnya cukup mengejutkan bagi para pengembang. Laporan tersebut mencatat bahwa semua sistem AI terkemuka mengakhiri musim simulasi dengan kerugian. Beberapa di antaranya bahkan menunjukkan performa yang jauh lebih buruk dibandingkan intuisi manusia biasa. Berikut adalah rinciannya:
- Claude Opus 4.6 (Anthropic): Menjadi model dengan performa yang paling lumayan, meskipun tetap merugi di kisaran rata-rata 11 persen.
- Grok 4.20 (xAI): Mengalami kegagalan total, di mana sistem ini sempat mengalami kebangkrutan finansial satu kali dan gagal menyelesaikan dua percobaan lainnya.
- Google Gemini 3.1 Pro: Menjadi satu-satunya sistem yang sempat mencicipi keuntungan sebesar 34 persen pada satu percobaan, namun berakhir tragis dengan kebangkrutan pada upaya berikutnya.
Kelemahan pada Penalaran Dinamis
Ross Taylor, pendiri General Reasoning sekaligus mantan peneliti kecerdasan buatan di Meta, menyatakan bahwa hasil ini menggambarkan adanya kesenjangan besar dalam cara industri mengukur kemajuan teknologi. Menurutnya, terlalu banyak sensasi atau hype seputar otomatisasi tanpa dibarengi pengujian jangka panjang di medan yang tidak menentu.
Ancaman Hantavirus di Balik Bayang-Bayang Pengerat: Pakar BRIN Beberkan Fakta Sains dan Langkah Mitigasi
“Banyak tolok ukur pengujian AI saat ini dibangun di sekitar lingkungan yang sangat statis. Mereka mengabaikan betapa berisikonya sistem saat harus menghadapi kondisi dunia nyata yang selalu berubah,” ungkap Taylor. Eksperimen ini menjadi bukti otentik bahwa penalaran terhadap waktu dan fluktuasi kondisi masih menjadi tantangan raksasa bagi teknologi AI masa kini.
Meskipun AI mampu memukau para insinyur dengan kemampuannya memecahkan masalah setara manusia, Taylor menegaskan bahwa model ini akan memberikan hasil yang buruk pada tugas-tugas dunia nyata yang memiliki cakupan waktu panjang. Ini menjadi pengingat bagi para bos perusahaan teknologi bahwa masih ada ‘pekerjaan rumah’ besar untuk menyelaraskan kecerdasan digital dengan penalaran praktis yang dibutuhkan untuk menaklukkan teka-teki dunia nyata secara utuh.
Pilihan Aplikasi Tanda Tangan Elektronik Terbaik untuk Legalitas Bisnis yang Sah dan Efisien