Perkembangan model bahasa besar (Large Language Models/LLM) yang semakin pesat membawa tantangan baru yang tidak bisa diabaikan: seberapa akurat informasi yang dihasilkan oleh model-model ini? Di tengah maraknya penggunaan AI untuk menjawab pertanyaan, merangkum dokumen, hingga menghasilkan konten kreatif, pertanyaan tentang faktualitas menjadi semakin krusial. Google DeepMind bersama Kaggle menjawab tantangan ini dengan meluncurkan FACTS Benchmark Suite, sebuah kerangka evaluasi komprehensif yang dirancang untuk mengukur kemampuan faktual LLM secara sistematis dan menyeluruh.
Mengapa Faktualitas AI Menjadi Perhatian Utama
Model bahasa besar seperti Gemini, GPT, Claude, dan lainnya kini menjadi sumber informasi utama bagi jutaan pengguna di seluruh dunia. Mulai dari mahasiswa yang mencari referensi penelitian, profesional yang membutuhkan analisis data, hingga pengguna kasual yang sekadar ingin tahu tentang suatu topik, semua bergantung pada keakuratan respons yang diberikan oleh model AI ini. Namun, fenomena yang dikenal sebagai halusinasi AI — di mana model menghasilkan informasi yang terdengar meyakinkan namun sebenarnya tidak akurat — tetap menjadi masalah serius yang belum sepenuhnya teratasi.
Evaluasi faktualitas bukan sekadar mengecek apakah jawaban benar atau salah. Dalam konteks LLM, faktualitas mencakup kemampuan model untuk mengakses pengetahuan internalnya secara akurat, menggunakan alat pencarian untuk menemukan informasi terbaru, memahami konteks visual dalam gambar, serta menyajikan jawaban yang sepenuhnya berdasarkan dokumen sumber tanpa menambahkan informasi yang tidak ada. Kompleksitas ini membutuhkan pendekatan evaluasi yang sama kompleksnya, dan itulah yang ditawarkan oleh FACTS Benchmark Suite.
Arsitektur FACTS Benchmark Suite
FACTS Benchmark Suite terdiri dari empat benchmark yang saling melengkapi, masing-masing dirancang untuk menguji aspek faktualitas yang berbeda. Total keseluruhan benchmark ini mencakup 3.513 contoh yang telah dikurasi secara cermat, menjadikannya salah satu suite evaluasi faktualitas paling komprehensif yang tersedia secara publik saat ini.
Benchmark pertama adalah Parametric Benchmark, yang mengevaluasi kemampuan model untuk menjawab pertanyaan faktual tanpa bantuan alat eksternal seperti pencarian web. Semua pertanyaan dalam benchmark ini bersifat trivia yang didasarkan pada minat pengguna dan dapat dijawab melalui Wikipedia, sumber standar yang umum digunakan dalam pelatihan LLM. Benchmark ini terdiri dari 1.052 item publik dan 1.052 item privat, dengan pertanyaan yang mencakup berbagai domain pengetahuan mulai dari sejarah, sains, budaya, hingga geografi.
Benchmark kedua adalah Search Benchmark, yang mengevaluasi kemampuan model untuk menggunakan alat pencarian web dalam menjawab pertanyaan. Yang membuat benchmark ini istimewa adalah tingkat kesulitannya yang dirancang untuk menantang bahkan model-model paling canggih sekalipun. Banyak pertanyaan membutuhkan pengambilan informasi secara berurutan dari beberapa halaman web untuk menjawab satu kueri tunggal. Sebagai contoh, salah satu pertanyaan meminta model untuk menghitung jumlah tahun kelahiran tiga petinju berbeda yang berkompetisi di Olimpiade Musim Panas 1960, yang mengharuskan model mencari informasi dari beberapa sumber terpisah. Search Benchmark terdiri dari 890 item publik dan 994 item privat.
Benchmark ketiga adalah Multimodal Benchmark, yang menguji kemampuan model untuk menghasilkan teks yang akurat secara faktual sebagai respons terhadap pertanyaan berbasis gambar. Kemampuan ini sangat penting untuk sistem multimodal modern yang semakin banyak digunakan dalam berbagai aplikasi. Evaluasi ini memastikan bahwa respons model tidak hanya benar tetapi juga menyediakan semua informasi yang diperlukan secara lengkap. Benchmark ini terdiri dari 711 item publik dan 811 item privat, mencakup berbagai kategori gambar dari foto alam hingga diagram teknis.
Benchmark keempat adalah pembaruan dari FACTS Grounding Benchmark asli menjadi Grounding Benchmark v2, yang menguji kemampuan model untuk memberikan jawaban yang sepenuhnya berdasarkan konteks yang diberikan dalam prompt. Ini adalah aspek kritis dari faktualitas AI karena banyak kasus penggunaan membutuhkan model untuk tetap setia pada dokumen sumber tanpa menambahkan informasi dari luar.
Metodologi Evaluasi yang Transparan
Salah satu keunggulan utama FACTS Benchmark Suite adalah transparansi dalam metodologi evaluasinya. Google DeepMind mengikuti praktik standar industri dengan menyimpan set evaluasi privat yang tidak dipublikasikan, mencegah kemungkinan model dilatih secara khusus untuk menjawab pertanyaan benchmark. FACTS Score dihitung sebagai rata-rata akurasi dari set publik dan privat di keempat benchmark, memberikan gambaran holistik tentang kemampuan faktual sebuah model.
Kaggle bertanggung jawab untuk mengelola keseluruhan FACTS Benchmark Suite, termasuk memiliki set privat yang di-hold-out, menguji model-model LLM terdepan pada benchmark tersebut, dan menghosting hasilnya pada leaderboard publik. Pendekatan ini memastikan bahwa evaluasi dilakukan secara independen dan hasil dapat diverifikasi oleh komunitas peneliti dan pengembang AI di seluruh dunia.
Alat pencarian web yang sama disediakan untuk semua model yang diuji pada Search Benchmark, memastikan bahwa kemampuan model diuji secara terisolasi tanpa faktor perancu dari pengaturan pengambilan web kustom. Standardisasi ini sangat penting untuk perbandingan yang adil antar model dari berbagai penyedia.
Hasil Evaluasi dan Peringkat Model Terkini
Hasil evaluasi terhadap 15 model terdepan mengungkapkan beberapa temuan menarik. Gemini 3 Pro dari Google memimpin dalam performa keseluruhan dengan FACTS Score sebesar 68,8 persen. Peningkatan signifikan terlihat dari Gemini 2.5 Pro ke Gemini 3 Pro, di mana tingkat kesalahan berkurang 55 persen pada FACTS Search dan 35 persen pada FACTS Parametric. Pencapaian ini menunjukkan bahwa investasi berkelanjutan dalam penelitian faktualitas membuahkan hasil nyata.
Namun, hasil evaluasi juga mengungkapkan bahwa masih ada ruang besar untuk perbaikan. Semua model yang dievaluasi mencapai akurasi keseluruhan di bawah 70 persen, menunjukkan bahwa faktualitas AI masih merupakan tantangan terbuka yang membutuhkan penelitian lebih lanjut. FACTS Multimodal mencatat skor terendah secara umum, mengindikasikan bahwa pemahaman visual dan integrasi dengan pengetahuan faktual masih menjadi area yang paling menantang bagi model-model saat ini.
Di luar FACTS Benchmark Suite, peningkatan faktualitas Gemini juga tercermin dalam benchmark faktualitas lain yaitu SimpleQA Verified. Akurasi meningkat dari 54,5 persen pada Gemini 2.5 Pro menjadi 72,1 persen pada Gemini 3 Pro, menunjukkan konsistensi peningkatan di berbagai metrik evaluasi yang berbeda.
Implikasi untuk Industri dan Pengguna
FACTS Benchmark Suite memiliki implikasi yang jauh melampaui sekadar kompetisi antar model AI. Bagi industri teknologi, benchmark ini menyediakan standar yang jelas dan terukur untuk mengevaluasi kemampuan faktual model sebelum diluncurkan ke publik. Perusahaan pengembang AI kini memiliki alat yang lebih baik untuk mengidentifikasi kelemahan spesifik dalam model mereka dan mengarahkan upaya penelitian ke area yang paling membutuhkan perbaikan.
Bagi pengguna akhir, keberadaan benchmark seperti ini memberikan transparansi yang sangat dibutuhkan. Pengguna dapat membuat keputusan yang lebih informasi tentang model mana yang paling cocok untuk kebutuhan spesifik mereka, apakah itu pencarian informasi faktual, analisis dokumen, atau pemahaman visual. Fakta bahwa bahkan model terbaik pun masih di bawah 70 persen akurasi juga menjadi pengingat penting bahwa verifikasi independen terhadap output AI tetap diperlukan.
Dari perspektif regulasi, FACTS Benchmark Suite menyediakan kerangka kerja yang dapat diadopsi oleh pembuat kebijakan untuk menilai kesiapan dan keandalan sistem AI sebelum diizinkan beroperasi dalam domain kritis seperti kesehatan, hukum, dan keuangan. Standarisasi evaluasi faktualitas dapat menjadi komponen penting dari kerangka regulasi AI yang sedang dikembangkan di berbagai negara.
Tantangan dan Arah Masa Depan
Meskipun FACTS Benchmark Suite merupakan langkah maju yang signifikan, beberapa tantangan tetap ada. Benchmark statis, tidak peduli seberapa cermat dikurasi, memiliki risiko saturasi seiring waktu ketika model-model baru dilatih dengan mempertimbangkan benchmark tersebut. Google DeepMind menyadari hal ini dan berkomitmen untuk terus memperbarui dan memperluas suite benchmark secara berkala.
Tantangan lain adalah cakupan bahasa. Saat ini, FACTS Benchmark Suite tampaknya fokus pada bahasa Inggris, meninggalkan pertanyaan terbuka tentang bagaimana kinerja faktual model dalam bahasa lain, termasuk Bahasa Indonesia. Mengingat bahwa LLM digunakan secara global, ekspansi benchmark ke bahasa-bahasa non-Inggris akan menjadi langkah penting untuk memastikan evaluasi yang lebih inklusif dan representatif.
Aspek temporal juga menjadi pertimbangan penting. Pengetahuan faktual tidak statis dan informasi berubah seiring waktu. Fakta yang benar hari ini mungkin sudah usang besok. Benchmark masa depan perlu mempertimbangkan dimensi temporal ini untuk memastikan bahwa model tidak hanya akurat berdasarkan data pelatihan mereka tetapi juga mampu mengakses dan menyajikan informasi terkini.
FACTS Benchmark Suite mewakili komitmen jangka panjang Google terhadap misi menjadikan informasi dapat diakses secara universal dan bermanfaat. Dengan menyediakan alat evaluasi yang transparan dan komprehensif, inisiatif ini diharapkan mendorong penelitian yang lebih mendalam tentang faktualitas LLM, yang pada akhirnya menghasilkan model dan produk yang lebih baik dan akurat bagi semua orang yang mengandalkannya. Era AI yang bertanggung jawab membutuhkan standar evaluasi yang ketat, dan FACTS Benchmark Suite meletakkan fondasinya dengan kokoh.
Referensi
- deepmind.google – FACTS Benchmark Suite: Systematically Evaluating the Factuality of Large Language Models, 2025
- kaggle.com – FACTS Benchmark Suite Leaderboard, 2025




