ChatGPT OpenAI alami gangguan.
INDOZONE.ID - OpenAI, perusahaan yang dikenal dengan inovasi dalam bidang kecerdasan buatan ChatGPT, baru saja memperkenalkan dua model AI terbarunya, yaitu o3 dan o3-mini.
Kedua model ini dirancang dengan kemampuan bernalar yang lebih baik, sehingga memungkinkan penggunanya untuk menyelesaikan masalah dengan pendekatan yang lebih logis, bak dengan cara berpikir manusia.
Model o3 merupakan penerus dari o1 yang diluncurkan pada bulan September lalu, sementara o3-mini adalah versi lebih ringan dan terjangkau dari o3, serta merupakan pengganti o1-mini.
Baca Juga: OpenAI Luncurkan Layanan Telepon untuk ChatGPT: Inovasi Baru dalam Akses AI
Dalam berapa pengujian internal, OpenAI mengklaim bahwa o3 menunjukkan kecerdasan yang jauh lebih tinggi dibandingkan o1 dalam menyelesaikan berbagai masalah matematika.
Salah satu pencapaian menonjolnya adalah dalam kompetisi matematika internasional, American Invitational Mathematics Exam (AIME) 2024, di mana o3 berhasil menyelesaikan hampir semua soal dengan tingkat akurasi mencapai 96,7 persen, hanya salah satu soal yang tidak terjawab.
Sebagai perbandingan, o1 hanya memperoleh skor 83,3 persen dalam pengujian yang sama.
Sementara itu, o3-mini juga menunjukkan performa yang mengesankan dalam mode penalaran "High", dengan skor 83,6 persen pada AIME 2024, lebih baik dibandingkan o1 dan o1-mini yang masing-masing hanya mendapatkan 63,6 persen.
Selain itu, o3 juga berhasil menjawab berbagai soal sains tingkat universitas dalam kelompok soal GPQA Diamond dengan skor 87,7 persen.
OpenAI juga mencatat bahwa o3 unggul dalam beberapa pengujian benchmark yang berkaitan dengan kemampuan bernalar.
Beberapa di antaranya termasuk SWE-Bench Verified (programming) dengan skor 22,8 poin, Codeforces (coding) dengan skor 2.727 poin, dan Frontie Math milik EpochAI dengan tingkat penyelesaian soal 25,2 persen.
Dalam pengujian kemampuan Artificial General Intelligence (AGI) yang dikenal sebagai ARC-AGI, o3 menunjukkan performa yang hampir sempurna.
Dalam skala 0-100 persen, o3 meraih skor 76 persen untuk mode "Low" dan 88 persen untuk mode "High", sementara o1 hanya berkisar antara 20-30 persen.
Dilarang mengambil dan/atau menayangkan ulang sebagian atau keseluruhan artikel di atas untuk konten akun media sosial komersil tanpa seizin redaksi
Sumber: TechCrunch