Agen AI menjadi terobosan terbaru di dunia AI. Banyak perusahaan AI sekarang bersaing untuk mengembangkan model mereka. Ini menciptakan berbagai pilihan untuk kebutuhan bisnis. Namun, di antara banyak pilihan tersebut, model mana yang memberikan performa terbaik?
Peringkat Galileo
Galileo meluncurkan Peringkat Agen di Hugging Face. Hugging Face adalah platform AI terbuka untuk mengembangkan, melatih, dan menerapkan model AI. Peringkat ini membantu kamu mengerti kinerja agen AI dalam bisnis. Dengan ini, kamu bisa memilih agen yang sesuai dengan kebutuhanmu.
Peringkat ini menampilkan data kinerja model secara komprehensif, termasuk posisi dan nilai evaluasi. Kamu bisa mengakses informasi dasar untuk setiap model. Ini termasuk pengembang, struktur biaya, dan status lisensi, baik terbuka maupun tertutup.
Saat ini, peringkat ini mencakup 17 model AI terkemuka. Model-model ini berasal dari pengembang seperti Google, OpenAI, Mistral, Anthropic, dan Meta. Pembaruan peringkat dilakukan setiap bulan untuk mengakomodasi rilis model-model terbaru.
Sistem Evaluasi Model
Galileo menggunakan beberapa alat pengujian untuk menilai kemampuan setiap agen:
- BFCL (Berkeley Function Calling Leaderboard): Sistem evaluasi yang mengukur kemampuan model dalam menyelesaikan tugas matematis, hiburan, dan pendidikan
- τ-bench (Tau benchmark): Fokus pada pengujian kinerja di sektor ritel dan penerbangan
- Xlam: Mengevaluasi kemampuan pembuatan data di 21 bidang yang berbeda
- ToolACE: Mengukur efektivitas penggunaan API di 390 sektor
Pengujian Galileo melibatkan banyak tingkat kompleksitas. Ini dimulai dari panggilan API sederhana dan bisa sampai penggunaan multi-tools yang rumit. Metodologi penilaian dipublikasikan secara terbuka untuk menjamin objektivitas evaluasi. Informasi teknis yang lebih detail tersedia di blog resmi mereka.
Hasil Evaluasi
Google Gemini-2.0 Flash memimpin peringkat, diikuti OpenAI GPT-4o di posisi kedua. Kedua model ini meraih “Elite Tier Performance” dari Galileo dengan nilai minimum 0,9. Google dan OpenAI mendominasi enam posisi teratas dengan model-model eksklusif mereka.
Google Gemini 2.0 menunjukkan kinerja terbaik di semua kategori. Gemini menawarkan keseimbangan yang optimal antara kinerja dan biaya. Struktur biaya berkisar Rp 2.400 – Rp 9.600 per satu juta token. GPT-4o di posisi kedua menawarkan tarif yang lebih tinggi, yakni Rp 40.000 – Rp 160.000 per satu juta token.
Dalam “segmen performa tinggi” (di bawah tier elit):
- Posisi ketiga: Gemini-1.5-Flash
- Posisi keempat: Gemini-1.5-Pro
- Posisi kelima dan keenam: Model penalaran OpenAI (o1 dan o3-mini)
Model AI Mistral-small-2501 mendapatkan nilai 0,832 dalam kategori “kemampuan menengah”. Model ini baik dalam memahami konteks yang panjang dan memilih tools dengan tepat.
Akses Peringkat
Kamu dapat mengakses peringkat lengkap di Peringkat Agen di Hugging Face. Selain peringkat umum, tersedia opsi filter berdasarkan:
- Jenis Model
- Model Terbuka
- Model Tertutup
- Kategori Kemampuan
- Performa Keseluruhan: Evaluasi komprehensif semua aspek
- Konteks Panjang: Kemampuan memproses dan memahami input teks yang panjang
- Gabungan: Kemampuan mengintegrasikan berbagai tools dan fungsi
- Kategori Spesifik: Performa dalam bidang tertentu, seperti matematika, bisnis, atau kreativitas