Model AI Terbaik, Diperingkat — Papan Peringkat Juni 2026 untuk Teks, Coding, Agen, Gambar & Video (Dengan Sumber)

Terakhir diverifikasi: 2026-06-15 (SGT/MYT) · Pembaruan berikutnya: pertengahan Juli 2026. Mindber Data Drop v2026.06. Setiap angka dikaitkan dengan sumber dan tanggal publikasinya — lihat Metode & sumber di bawah. Harga bersifat campuran/ilustratif dan sering berubah; konfirmasikan terhadap harga langsung masing-masing penyedia sebelum berkomitmen pada pengeluaran.

Oleh Mindber Research · Pelacakan model AI. Angka diperiksa terhadap papan peringkat yang dikutip pada 2026-06-15.

Bagaimana kami menilai ini: Analisis editorial berbantuan AI yang menggabungkan hasil yang dipublikasikan dari papan peringkat independen (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) dan halaman harga vendor, per Juni 2026. Mindber tidak menjalankan benchmark privatnya sendiri dan ini bukan pengujian produk secara langsung. Setiap angka dikaitkan dengan asal dan tanggalnya; angka apa pun yang tidak dapat kami konfirmasi terhadap sumber langsung dihapus, bukan ditebak.

Jawaban singkatnya: tidak ada satu pun "model AI terbaik" pada Juni 2026 — yang ada adalah model terbaik per tugas, per anggaran. Saat ini Claude Fable 5 memuncaki kapabilitas mentah, GPT-5.5 memimpin agen coding, Gemini 3.1 Pro adalah nilai frontier terbaik, model open-weight (MiniMax-M3, DeepSeek V4, Qwen3.7 Max) menutup sebagian besar kesenjangan dengan harga sepersekiannya, Nano Banana 2 dan GPT Image memimpin gambar, serta Veo 3.1 / Kling 3.0 memimpin video kini setelah Sora 2 dipensiunkan.

Di bawah ini adalah uraian lengkapnya — dan, yang lebih penting, bagian yang dilewatkan sebagian besar papan peringkat: angka mana yang nyata dan mana yang harus diabaikan. Untuk tampilan langsung Mindber atas lanskap yang sama, lihat papan Model Arena dan peringkat LLM mingguan; untuk membandingkan dua model secara langsung dari sisi harga dan kapabilitas, gunakan alat perbandingan.

Tiga angka yang membingkai Juni 2026

Claude Fable 5 — puncak Artificial Analysis Intelligence Index, ~8 poin di atas tier nilai

Artificial Analysis, Juni 2026

83.4%

Codex CLI pada GPT-5.5 — pemimpin agentic-coding di Terminal-Bench 2.1, di depan Claude Code pada Opus 4.8 (78.9%)

tbench.ai, Juni 2026

~$0.18

DeepSeek V4 Pro campuran per 1M token — kualitas yang mendekati frontier dengan sekitar sepersepuluh harga model tertutup teratas

Artificial Analysis, Juni 2026

TL;DR — model terbaik per kategori (Juni 2026)

Tugas	Pilihan teratas	Alternatif nilai terbaik	Angka yang penting
Teks & penalaran	Claude Fable 5	Gemini 3.1 Pro / Qwen3.7 Max	AA Intelligence Index 65 vs 57
Coding (model)	Claude Fable 5 / Opus 4.8	DeepSeek V4 / MiniMax-M3	SWE-bench Verified — tetapi baca peringatannya
Agen coding (alat)	GPT-5.5 (Codex CLI)	Claude Opus 4.8 (Claude Code)	Terminal-Bench 2.1: 83.4% vs 78.9%
Agen umum / penggunaan alat	GPT-5.5	Keluarga GLM-5 (tugas layanan pelanggan)	Bergantung benchmark — tidak ada pemenang universal
Gambar	Nano Banana 2	Seedream 5.0 (volume)	Arena preferensi manusia + biaya per gambar
Video	Veo 3.1 (sinematik + audio)	Kling 3.0 (~$0.10/dtk)	Sora 2 sedang ditutup — pindah darinya
Termurah pada kualitas frontier	DeepSeek V4 Pro	MiniMax-M3	~$0.18–0.22 campuran /1M token
Output tercepat	Mercury 2	Gemini 3.1 Flash-Lite	~889 t/dtk vs ~326 t/dtk

Angka kapabilitas: Artificial Analysis Intelligence Index, Juni 2026 (381 model). Coding: vals.ai SWE-bench Verified + Scale AI SEAL. Agen: tbench.ai Terminal-Bench 2.1. Kami mengaitkan setiap angka dengan sumber dan tanggalnya — lihat Metode di bawah.

Apa yang berubah bulan ini

Frontier kembali bergerak pada akhir Mei dan awal Juni:

Claude Fable 5 dirilis GA pada 9 Juni 2026 ($10 / $50 per 1M token, konteks 1M-token). Ia debut di #1 pada Artificial Analysis Intelligence Index (65) dan puncak SWE-bench Verified (95.0%). Kami membahas akses, pengaman, dan prompt dalam panduan Claude Fable 5, dan Anda dapat melihat penjelasan Anthropic sendiri dalam pengumumannya.
Claude Opus 4.8 dirilis 28 Mei 2026 ($5 / $25). Ia mencatatkan 88.6% pada SWE-bench Verified dan 74.6% pada Terminal-Bench 2.1 — titik harga-terhadap-kapabilitas terkuat dalam lini Claude. Lihat kartu skornya dan kalkulator biaya Opus 4.8 untuk perhitungan titik impas.
GPT-5.5 (23 April 2026) adalah model harian default OpenAI, dengan dilaporkan penurunan ~60% halusinasi dibandingkan GPT-5.4. Saat ini ia memimpin agentic coding melalui Codex; tarif terkini ada di halaman harga OpenAI.
Sora 2 sedang dipensiunkan. OpenAI menutup web/aplikasi Sora pada 26 April 2026; API ditutup pada 24 September 2026. Jangan mulai pipeline video baru di atasnya.
Open weight hampir menyusul. DeepSeek V4, MiniMax-M3, dan Qwen3.7 Max kini berada dalam ~0.2 poin dari Gemini 3.1 Pro pada SWE-bench Verified — dengan sekitar sepersepuluh harga token.

Kesimpulan utamanya: puncak tabel kini berupa dataran tinggi (plateau), bukan kesenjangan. Keputusan yang menarik di 2026 adalah soal biaya, kecepatan, dan kecocokan — bukan soal mengejar baris #1.

1) Teks & penalaran

Angka kapabilitas tunggal yang paling bersih adalah Artificial Analysis Intelligence Index — komposit dari GPQA Diamond, MMLU-Pro, AIME, LiveCodeBench, dan beberapa benchmark lain, dinormalisasi menjadi satu skor.

#	Model	Pembuat	Intelligence Index	Harga campuran /1M	Konteks
1	Claude Fable 5 (max effort)	Anthropic	65	$7.70	1M
2	Claude Opus 4.8 (max)	Anthropic	61	$3.85	1M
3	GPT-5.5 (xhigh)	OpenAI	60	$4.35	922k
4	GPT-5.5 (high)	OpenAI	59	$4.35	922k
5	Gemini 3.1 Pro Preview	Google	57	$1.74	1M
5	Qwen3.7 Max	Alibaba	57	$1.43	1M
5	Claude Opus 4.7 (max)	Anthropic	57	$3.85	1M
8	Gemini 3.5 Flash	Google	55	$1.31	1M
8	MiniMax-M3 (open)	MiniMax	55	$0.22	1M
10	Kimi K2.6 (open)	Moonshot	54	$0.70	256k

Sumber: Artificial Analysis Intelligence Index, Juni 2026.

Bacalah seperti ini: lima model teratas terpisah hanya ~8 poin pada suite penalaran yang luas — cukup dekat sehingga untuk sebagian besar beban kerja nyata mereka dapat dipertukarkan dari sisi kualitas. Tempat mereka berbeda jauh adalah harga. Gemini 3.1 Pro memberikan penalaran index-57 seharga $1.74; Qwen3.7 Max menyamainya seharga $1.43; MiniMax-M3 mendarat di index-55 seharga $0.22. Membayar harga Fable-5 ($7.70 campuran) hanya masuk akal untuk 5–10% tugas yang benar-benar tersulit. Jika pengeluaran Anda didominasi volume tinggi panggilan berkesulitan menengah, tier nilai bukanlah kompromi — itu adalah default yang benar, dan Anda dapat memeriksa kewajaran trade-off-nya pada peringkat Mindber.

Preferensi manusia vs benchmark: LMArena (voting A/B buta) dan Intelligence Index mengukur hal yang berbeda — satu menangkap apa yang disukai orang, satunya apa yang mampu dilakukan model. Keluarga Claude dan Gemini bergantian memuncaki papan teks LMArena, dan peringkat itu bergeser dari minggu ke minggu. Ketika kedua papan peringkat berselisih, kesenjangan itu biasanya berarti sebuah model entah terlalu atau kurang disetel untuk gaya chat, bukan bahwa satu sumber "salah." Inilah persis mengapa metodologi penilaian Mindber menjaga kapabilitas dan preferensi sebagai sumbu terpisah alih-alih menggabungkannya menjadi satu angka.

2) Coding

Ini adalah kategori dengan angka paling menyesatkan di internet, jadi bacalah dengan saksama.

#	Model	SWE-bench Verified	Harga /1M (masuk/keluar)
1	Claude Fable 5	95.0%	$10 / $50
2	Claude Opus 4.8	88.6%	$5 / $25
3	GPT-5.5	82.6%	$5 / $30
4	Claude Opus 4.7	~82%	$5 / $25
5	MiniMax-M3 (open)	80.5%	$0.30 / $1.20
5	Gemini 3.5 Flash	78.8%	$1.31 campuran

Sumber: vals.ai SWE-bench Verified, Juni 2026. (Skor Opus 4.7 yang dilaporkan bervariasi 82–88% di berbagai harness — lihat peringatan.)

⚠️ Pemeriksaan realitas yang tidak akan diberikan sebagian besar papan peringkat

SWE-bench Verified sebagian sudah jenuh dan sebagian terhafal. Audit OpenAI sendiri menemukan bahwa model frontier dapat mereproduksi patch "gold" secara verbatim untuk beberapa tugas — 500 isu Python itu bocor ke dalam data pelatihan sebelum benchmark dipublikasikan secara luas. OpenAI berhenti melaporkan skor Verified dan kini mengarahkan ke SWE-bench Pro sebagai gantinya.

Pada papan peringkat SEAL terstandar milik Scale AI (scaffolding identik untuk setiap model), angka-angka itu runtuh:

Skor terstandar publik terbaik: ~59.1% (GPT-5.4 xHigh)
Set komersial privat: tidak ada model yang melampaui ~47.1%
Penurunan tipikal saat berpindah dari Verified → Pro: 15–35 poin

Jadi ketika Anda melihat "95% pada SWE-bench," terjemahkan menjadi: "benchmark jenuh, tingkat keberhasilan dunia nyata kira-kira setengahnya pada kode yang lebih sulit dan belum pernah dilihat." Gunakan angka Pro / terstandar untuk keputusan pengadaan, dan Verified hanya untuk peringkat relatif kasar. Pelajaran yang lebih dalam adalah yang sangat ditekankan metodologi verifikasi Mindber: angka benchmark utama adalah hipotesis awal, bukan keputusan pembelian.

3) Agen & penggunaan alat

Untuk pekerjaan agentic, harness sama pentingnya dengan model. Model yang sama mendapat skor berbeda di dalam Codex CLI vs Claude Code pada Opus 4.8 vs scaffold kustom — papan peringkat agen memeringkat pasangan agen + model, bukan model saja.

Terminal-Bench 2.1 (mengoperasikan komputer nyata melalui terminal — mengompilasi kode, menyiapkan server, menjalankan alur kerja data):

#	Agen + model	Skor
1	Codex CLI pada GPT-5.5	83.4%
2	Claude Code pada Opus 4.8	78.9%
3	Gemini CLI pada Gemini 3.1 Pro	70.7% (±2.9)

Sumber: tbench.ai, Juni 2026.

Layanan pelanggan / penggunaan alat terstruktur (τ²-bench): gambaran yang sama sekali berbeda — model keluarga GLM (mis. GLM-4.7-Flash di 98.8%) memuncaki tugas pemanggilan alat ritel/maskapai. Model yang menang di otomatisasi terminal bisa kalah dalam penggunaan alat layanan pelanggan multi-giliran. Pilih agen Anda berdasarkan tugas yang benar-benar Anda jalankan, bukan berdasarkan satu papan saja — dan jika Anda ragu model mana yang bahkan layak masuk daftar pendek Anda, mulailah dari direktori alat AI yang difilter sesuai kasus penggunaan Anda.

4) Pembuatan gambar

Persaingan gambar telah terbagi menjadi jalur-jalur yang jelas — tidak ada #1 secara keseluruhan, hanya yang terbaik per jalur.

Serba bisa terbaik / konsistensi karakter: Nano Banana 2 (Gemini 3.1 Flash Image). 4K native, menjaga wajah dan gaya tetap stabil di seluruh penyuntingan — ideal untuk konten berseri (maskot, storyboard, kampanye). Premium dengan ~$0.13–0.24/gambar.
Teks & tipografi terbaik: GPT Image (1.5 / 2). Ruang laten "berpikir" yang menalar instruksi spasial — satu-satunya model yang dapat Anda percaya untuk mengeja headline dengan benar. Konsisten dengan peringkat teratas di Arena.ai untuk kepatuhan prompt.
Nilai terbaik / volume tinggi: Seedream 5.0 (ByteDance). 4K kelas produksi seharga ~$0.026–0.032/gambar — dibangun untuk katalog e-commerce dan kalender konten.
Terbaik untuk logo & poster: Ideogram v3.
Terbaik untuk penguncian merek/gaya & open weight: Flux 2 Pro (tier dev/pro/max).
Terbaik untuk prompt non-Inggris: Qwen Image (kuat pada bahasa Mandarin, Arab, Spanyol).
Tercepat: Z-Image Turbo (~1 detik per gambar).

Untuk kreator Asia Tenggara / multibahasa: Qwen Image dan Seedream menangani prompt berbahasa Mandarin dan beraksara campuran lebih andal daripada model yang disetel untuk Barat, dan ekonomi per-gambar Seedream membuat pemotretan produk secara batch menjadi realistis dengan anggaran kecil. Anda dapat menjelajahi lanskap pembuatan gambar, lengkap dengan skor Mindber dan harga langsung, di direktori penemuan.

5) Pembuatan video

Cerita besarnya adalah sebuah kepergian: Sora 2 sedang ditutup (web/aplikasi 26 April 2026; API 24 September 2026). Jika Anda menggunakannya, rencanakan migrasi Anda sekarang. Inilah lanskap yang tersisa:

Kualitas sinematik + audio native terbaik: Veo 3.1 (Google). Satu-satunya model yang menghasilkan dialog tersinkronisasi 48kHz — bukan sekadar efek suara. Fotorealisme terbaik pada subjek manusia dan cahaya alami. ~$0.15–1.20 per klip 5 detik per tier.
Nilai terbaik: Kling 3.0 (Kuaishou). 4K native, 60fps, lip-sync multibahasa, ~$0.10/detik — kuda beban untuk iterasi.
Image-to-video terpanas: Seedance 2.0 (ByteDance). Gerakan terstilisasi yang kuat dan konten vertikal bentuk pendek.
Penantang frontier baru: HappyHorse-1.0 (Alibaba). Audio-video gabungan, lip-sync 7 bahasa, naik di papan video Artificial Analysis; tersedia langsung di fal.ai.
Kontrol kreatif terbaik: Runway Gen-4.5. Motion brush, konsistensi adegan, dan editor timeline sungguhan — ia kehilangan posisi teratas papan peringkat tetapi masih unggul untuk pekerjaan terarah multi-shot.
HDR terbaik: Luma Ray3.14 (HDR 16-bit native).

Catatan: skor arena video berada pada skala berbeda (LMArena text-to-video vs Artificial Analysis), sehingga perbandingan angka lintas papan tidak dapat diandalkan. Anggaplah ini sebagai pemimpin per jalur, bukan satu tangga peringkat tunggal.

6) Nilai terbaik & open-weight (jalur bootstrap)

Jika Anda merilis produk dan menjaga margin, ini adalah tabel terpenting dalam laporan ini. Open weight kini mendekati frontier dengan biaya sepersekiannya:

Model	Index	Harga /1M	Mengapa memilihnya
Gemini 3.1 Pro	57	$1.74	Nilai frontier tertutup terbaik
Qwen3.7 Max	57	$1.43	Penalaran frontier, konteks 1M, multibahasa kuat
MiniMax-M3 (open)	55	$0.22	Mendekati frontier, open weight, konteks 1M
Kimi K2.6 (open)	54	$0.70	Penalaran open yang kuat
DeepSeek V4 Pro (open)	52	$0.18	Kuda beban kredibel termurah; cache hit menurunkan biaya input lebih jauh
GLM-5.1 (open)	51	$0.90	Penggunaan alat / agentic yang kuat

Sumber: Artificial Analysis, Juni 2026.

Strategi routing: penyiapan optimal-biaya bukanlah satu model — melainkan sebuah router. Sematkan ~80% lalu lintas ke kuda beban murah (DeepSeek V4 / MiniMax-M3 / Gemini Flash kecil) dan cadangkan model frontier (Opus 4.8 / Fable 5) untuk 20% yang sulit. Dilakukan dengan benar, ini mengalahkan langganan model tunggal mana pun dari sisi biaya maupun kualitas. Ekonomi pembagian itu — dan mengapa daftar tarif hanya sebagian kecil dari tagihan sebenarnya — dibahas tuntas dari awal hingga akhir dalam The True Cost of AI Tools 2026.

7) Kecepatan (untuk real-time & rantai agen panjang)

Ketika latensi menumpuk di banyak langkah berurutan, throughput menjadi metrik penentu:

Mercury 2 (Inception, LLM difusi) — ~889 token/dtk
Granite 4.0 H Small (IBM) — ~524 t/dtk
Step 3.7 Flash — ~385 t/dtk
gpt-oss-120b (high) — ~338 t/dtk
Gemini 3.1 Flash-Lite — ~326 t/dtk

Sumber: kecepatan output median Artificial Analysis, Juni 2026. Untuk UX chat, apa pun di atas ~150 t/dtk terasa instan; kecepatan paling penting untuk loop agentic dan pekerjaan batch, di mana setiap detik ekstra dikalikan dengan jumlah langkah berurutan dalam rantai.

Cara memilih model secara nyata

Berhentilah mengoptimalkan untuk baris #1. Cocokkan model dengan tugasnya:

Penalaran tersulit, biaya bukan masalah → Claude Fable 5 atau Opus 4.8.
Kualitas terbaik per dolar di frontier → Gemini 3.1 Pro atau Qwen3.7 Max.
Self-hosting / residensi data / biaya terendah → MiniMax-M3, DeepSeek V4, atau Qwen3.7 Max.
Coding di dalam agen → GPT-5.5 via Codex, atau Opus 4.8 via Claude Code.
Gambar — umum → Nano Banana 2; teks dalam gambar → GPT Image; volume tinggi → Seedream 5.
Video — sinematik + audio → Veo 3.1; nilai/iterasi → Kling 3.0.
Real-time / throughput tinggi → Mercury 2 atau model tier Flash.

Grid keputusan di bawah ini adalah logika yang sama dalam bentuk yang dapat Anda serahkan kepada seorang pembeli:

Grid keputusan pembeli

Kualitas di atas biaya

Penalaran tersulit

Claude Fable 5 (index 65) atau Opus 4.8 (61)
Sepadan untuk 5–10% tugas tersulit
Arahkan pekerjaan mudah ke tempat lain — jangan jadikan default di sini

Kualitas per dolar

Nilai terbaik di frontier

Gemini 3.1 Pro ($1.74) atau Qwen3.7 Max ($1.43)
Index 57 — dalam ~8 poin dari puncak
Default yang benar untuk sebagian besar lalu lintas produksi

Margin atau residensi data

Biaya terendah / self-host

MiniMax-M3 ($0.22), DeepSeek V4 ($0.18)
Open weight, konteks 1M, dapat di-self-host
Cache hit menurunkan tarif input lebih jauh

Harness sama pentingnya dengan model

Coding di dalam agen

GPT-5.5 via Codex memuncaki Terminal-Bench 2.1
Opus 4.8 via Claude Code mengikuti dekat di belakang
Peringkat pasangan agen+model, bukan model saja

Terbaik per jalur, tidak ada #1 keseluruhan

Gambar & video

Gambar: Nano Banana 2 / GPT Image / Seedream 5
Video: Veo 3.1 (audio) atau Kling 3.0 (nilai)
API Sora 2 ditutup 24 Sep 2026 — pindah

Latensi menumpuk dalam loop agen

Real-time / throughput tinggi

Mercury 2 (~889 t/dtk) atau model tier Flash
>150 t/dtk sudah terasa instan dalam chat
Kecepatan menentukan untuk rantai batch + multi-langkah

FAQ

Apa model AI terbaik saat ini (Juni 2026)?

Untuk kapabilitas mentah, Claude Fable 5 memimpin Artificial Analysis Intelligence Index (65). Tetapi "terbaik" bergantung pada tugasnya: GPT-5.5 memimpin agentic coding, Gemini 3.1 Pro adalah nilai terbaik, dan model open seperti MiniMax-M3 paling baik untuk penerapan yang sensitif biaya. Tampilan langsung Mindber ada di papan Model Arena.

Apakah Claude lebih baik daripada GPT-5.5?

Pada Intelligence Index komposit, Claude Fable 5 (65) dan Opus 4.8 (61) berada di atas GPT-5.5 (60). Pada agentic coding (Terminal-Bench 2.1), GPT-5.5 via Codex (83.4%) saat ini sedikit mengungguli Opus 4.8 via Claude Code (78.9%). Keduanya cukup dekat sehingga kecocokan alur kerja dan harga biasanya yang menentukan — kalkulator biaya Opus 4.8 membantu dari sisi keuangan.

Apa model AI gratis atau open-source terbaik?

MiniMax-M3 (Intelligence Index 55) adalah model open-weight mendekati frontier yang terkuat, diikuti Kimi K2.6 (54) dan DeepSeek V4 Pro (52). Semuanya dapat di-self-host dan jauh lebih murah daripada model frontier tertutup.

Apa model AI bagus yang termurah?

DeepSeek V4 Pro (~~$0.18 campuran /1M token, index 52) dan MiniMax-M3 (~~$0.22, index 55) menawarkan kualitas mendekati frontier dengan sekitar sepersepuluh harga model tertutup teratas.

Apa model AI terbaik untuk coding?

Berdasarkan model: Claude Fable 5 / Opus 4.8 memimpin SWE-bench Verified. Berdasarkan agen coding: GPT-5.5 (Codex) memuncaki Terminal-Bench 2.1. Perhatikan bahwa SWE-bench Verified sebagian sudah jenuh — periksa SWE-bench Pro untuk sinyal dunia nyata.

Mengapa skor SWE-bench begitu tinggi — apakah itu nyata?

Perlakukan skor SWE-bench Verified 90%+ dengan hati-hati. Benchmark ini memiliki kontaminasi data pelatihan yang diketahui; OpenAI berhenti melaporkannya. Pada papan peringkat SEAL terstandar milik Scale, skor publik terbaik adalah ~59%, dan tidak ada model yang melampaui ~47% pada set privat. Keberhasilan coding dunia nyata kira-kira setengah dari angka utama Verified.

Apa generator gambar AI terbaik di 2026?

Nano Banana 2 untuk penggunaan umum dan konsistensi karakter, GPT Image untuk teks/tipografi, dan Seedream 5.0 untuk produksi volume tinggi yang sensitif biaya.

Apa generator video AI terbaik kini setelah Sora tiada?

Veo 3.1 untuk kualitas sinematik dengan audio tersinkronisasi native, dan Kling 3.0 untuk nilai terbaik (~$0.10/detik). API Sora 2 ditutup pada 24 September 2026.

Seberapa sering papan peringkat ini diperbarui?

Bulanan. Ini adalah edisi Juni 2026; penyegaran berikutnya hadir pertengahan Juli 2026. Di antara edisi, papan Model Arena dan umpan What's New melacak peluncuran begitu mereka hadir.

Metode & sumber

Kami tidak menjalankan benchmark privat kami sendiri atau mengarang skor. Papan peringkat ini menggabungkan hasil yang dipublikasikan dari sumber independen dan mengaitkan setiap angka dengan asal dan tanggalnya — transparansi itulah intinya, dan itu adalah standar yang sama yang dipegang metodologi penilaian kami untuk setiap halaman produk.

Kapabilitas / harga / kecepatan: Artificial Analysis Intelligence Index (381 model), Juni 2026.
Coding: vals.ai (SWE-bench Verified) dan Scale AI SEAL (SWE-bench Pro, scaffolding terstandar), Juni 2026.
Agen: tbench.ai (Terminal-Bench 2.1) dan τ²-bench, Juni 2026.
Preferensi manusia: LMArena (voting A/B buta), Juni 2026.
Harga & spesifikasi vendor: halaman harga Anthropic, OpenAI, dan Google Gemini, Juni 2026.

Harga bersifat campuran/ilustratif dan sering berubah — konfirmasikan terhadap harga langsung masing-masing penyedia sebelum berkomitmen pada pengeluaran. Beberapa model research-preview (mis. preview tier Mythos) muncul di papan peringkat tetapi tidak tersedia secara umum; kami memeringkat lanskap yang dapat digunakan secara publik. Untuk gambaran utuh berapa biaya sebenarnya sebuah model setelah retry, asimetri output, dan kursi menganggur dihitung, baca The True Cost of AI Tools 2026.

Menemukan kesalahan atau rilis baru yang kami lewatkan? Itu cara tercepat untuk memperbaiki sebuah papan peringkat — beri tahu kami.

Jelajahi lebih banyak di Mindber: peringkat langsung Model Arena · What's New · peringkat LLM mingguan · direktori alat AI lengkap · semua panduan kami.

Terkait di Mindber

Terakhir diverifikasi: 2026-06-15 (SGT/MYT) · Pembaruan berikutnya: pertengahan Juli 2026. Mindber Data Drop v2026.06. Setiap angka dikaitkan dengan sumber dan tanggal publikasinya — lihat Metode & sumber di bawah. Harga bersifat campuran/ilustratif dan sering berubah; konfirmasikan terhadap harga langsung masing-masing penyedia sebelum berkomitmen pada pengeluaran.

Oleh Mindber Research · Pelacakan model AI. Angka diperiksa terhadap papan peringkat yang dikutip pada 2026-06-15.

Bagaimana kami menilai ini: Analisis editorial berbantuan AI yang menggabungkan hasil yang dipublikasikan dari papan peringkat independen (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) dan halaman harga vendor, per Juni 2026. Mindber tidak menjalankan benchmark privatnya sendiri dan ini bukan pengujian produk secara langsung. Setiap angka dikaitkan dengan asal dan tanggalnya; angka apa pun yang tidak dapat kami konfirmasi terhadap sumber langsung dihapus, bukan ditebak.

Tiga angka yang membingkai Juni 2026

Claude Fable 5 — puncak Artificial Analysis Intelligence Index, ~8 poin di atas tier nilai

Artificial Analysis, Juni 2026

83.4%

Codex CLI pada GPT-5.5 — pemimpin agentic-coding di Terminal-Bench 2.1, di depan Claude Code pada Opus 4.8 (78.9%)

tbench.ai, Juni 2026

~$0.18

DeepSeek V4 Pro campuran per 1M token — kualitas yang mendekati frontier dengan sekitar sepersepuluh harga model tertutup teratas

Artificial Analysis, Juni 2026

TL;DR — model terbaik per kategori (Juni 2026)

Tugas	Pilihan teratas	Alternatif nilai terbaik	Angka yang penting
Teks & penalaran	Claude Fable 5	Gemini 3.1 Pro / Qwen3.7 Max	AA Intelligence Index 65 vs 57
Coding (model)	Claude Fable 5 / Opus 4.8	DeepSeek V4 / MiniMax-M3	SWE-bench Verified — tetapi baca peringatannya
Agen coding (alat)	GPT-5.5 (Codex CLI)	Claude Opus 4.8 (Claude Code)	Terminal-Bench 2.1: 83.4% vs 78.9%
Agen umum / penggunaan alat	GPT-5.5	Keluarga GLM-5 (tugas layanan pelanggan)	Bergantung benchmark — tidak ada pemenang universal
Gambar	Nano Banana 2	Seedream 5.0 (volume)	Arena preferensi manusia + biaya per gambar
Video	Veo 3.1 (sinematik + audio)	Kling 3.0 (~$0.10/dtk)	Sora 2 sedang ditutup — pindah darinya
Termurah pada kualitas frontier	DeepSeek V4 Pro	MiniMax-M3	~$0.18–0.22 campuran /1M token
Output tercepat	Mercury 2	Gemini 3.1 Flash-Lite	~889 t/dtk vs ~326 t/dtk

Apa yang berubah bulan ini

Frontier kembali bergerak pada akhir Mei dan awal Juni:

Claude Fable 5 dirilis GA pada 9 Juni 2026 ($10 / $50 per 1M token, konteks 1M-token). Ia debut di #1 pada Artificial Analysis Intelligence Index (65) dan puncak SWE-bench Verified (95.0%). Kami membahas akses, pengaman, dan prompt dalam panduan Claude Fable 5, dan Anda dapat melihat penjelasan Anthropic sendiri dalam pengumumannya.
Claude Opus 4.8 dirilis 28 Mei 2026 ($5 / $25). Ia mencatatkan 88.6% pada SWE-bench Verified dan 74.6% pada Terminal-Bench 2.1 — titik harga-terhadap-kapabilitas terkuat dalam lini Claude. Lihat kartu skornya dan kalkulator biaya Opus 4.8 untuk perhitungan titik impas.
GPT-5.5 (23 April 2026) adalah model harian default OpenAI, dengan dilaporkan penurunan ~60% halusinasi dibandingkan GPT-5.4. Saat ini ia memimpin agentic coding melalui Codex; tarif terkini ada di halaman harga OpenAI.
Sora 2 sedang dipensiunkan. OpenAI menutup web/aplikasi Sora pada 26 April 2026; API ditutup pada 24 September 2026. Jangan mulai pipeline video baru di atasnya.
Open weight hampir menyusul. DeepSeek V4, MiniMax-M3, dan Qwen3.7 Max kini berada dalam ~0.2 poin dari Gemini 3.1 Pro pada SWE-bench Verified — dengan sekitar sepersepuluh harga token.

1) Teks & penalaran

#	Model	Pembuat	Intelligence Index	Harga campuran /1M	Konteks
1	Claude Fable 5 (max effort)	Anthropic	65	$7.70	1M
2	Claude Opus 4.8 (max)	Anthropic	61	$3.85	1M
3	GPT-5.5 (xhigh)	OpenAI	60	$4.35	922k
4	GPT-5.5 (high)	OpenAI	59	$4.35	922k
5	Gemini 3.1 Pro Preview	Google	57	$1.74	1M
5	Qwen3.7 Max	Alibaba	57	$1.43	1M
5	Claude Opus 4.7 (max)	Anthropic	57	$3.85	1M
8	Gemini 3.5 Flash	Google	55	$1.31	1M
8	MiniMax-M3 (open)	MiniMax	55	$0.22	1M
10	Kimi K2.6 (open)	Moonshot	54	$0.70	256k

Sumber: Artificial Analysis Intelligence Index, Juni 2026.

2) Coding

Ini adalah kategori dengan angka paling menyesatkan di internet, jadi bacalah dengan saksama.

#	Model	SWE-bench Verified	Harga /1M (masuk/keluar)
1	Claude Fable 5	95.0%	$10 / $50
2	Claude Opus 4.8	88.6%	$5 / $25
3	GPT-5.5	82.6%	$5 / $30
4	Claude Opus 4.7	~82%	$5 / $25
5	MiniMax-M3 (open)	80.5%	$0.30 / $1.20
5	Gemini 3.5 Flash	78.8%	$1.31 campuran

Sumber: vals.ai SWE-bench Verified, Juni 2026. (Skor Opus 4.7 yang dilaporkan bervariasi 82–88% di berbagai harness — lihat peringatan.)

⚠️ Pemeriksaan realitas yang tidak akan diberikan sebagian besar papan peringkat

Pada papan peringkat SEAL terstandar milik Scale AI (scaffolding identik untuk setiap model), angka-angka itu runtuh:

Skor terstandar publik terbaik: ~59.1% (GPT-5.4 xHigh)
Set komersial privat: tidak ada model yang melampaui ~47.1%
Penurunan tipikal saat berpindah dari Verified → Pro: 15–35 poin

3) Agen & penggunaan alat

Terminal-Bench 2.1 (mengoperasikan komputer nyata melalui terminal — mengompilasi kode, menyiapkan server, menjalankan alur kerja data):

#	Agen + model	Skor
1	Codex CLI pada GPT-5.5	83.4%
2	Claude Code pada Opus 4.8	78.9%
3	Gemini CLI pada Gemini 3.1 Pro	70.7% (±2.9)

Sumber: tbench.ai, Juni 2026.

4) Pembuatan gambar

Persaingan gambar telah terbagi menjadi jalur-jalur yang jelas — tidak ada #1 secara keseluruhan, hanya yang terbaik per jalur.

Serba bisa terbaik / konsistensi karakter: Nano Banana 2 (Gemini 3.1 Flash Image). 4K native, menjaga wajah dan gaya tetap stabil di seluruh penyuntingan — ideal untuk konten berseri (maskot, storyboard, kampanye). Premium dengan ~$0.13–0.24/gambar.
Teks & tipografi terbaik: GPT Image (1.5 / 2). Ruang laten "berpikir" yang menalar instruksi spasial — satu-satunya model yang dapat Anda percaya untuk mengeja headline dengan benar. Konsisten dengan peringkat teratas di Arena.ai untuk kepatuhan prompt.
Nilai terbaik / volume tinggi: Seedream 5.0 (ByteDance). 4K kelas produksi seharga ~$0.026–0.032/gambar — dibangun untuk katalog e-commerce dan kalender konten.
Terbaik untuk logo & poster: Ideogram v3.
Terbaik untuk penguncian merek/gaya & open weight: Flux 2 Pro (tier dev/pro/max).
Terbaik untuk prompt non-Inggris: Qwen Image (kuat pada bahasa Mandarin, Arab, Spanyol).
Tercepat: Z-Image Turbo (~1 detik per gambar).

5) Pembuatan video

Kualitas sinematik + audio native terbaik: Veo 3.1 (Google). Satu-satunya model yang menghasilkan dialog tersinkronisasi 48kHz — bukan sekadar efek suara. Fotorealisme terbaik pada subjek manusia dan cahaya alami. ~$0.15–1.20 per klip 5 detik per tier.
Nilai terbaik: Kling 3.0 (Kuaishou). 4K native, 60fps, lip-sync multibahasa, ~$0.10/detik — kuda beban untuk iterasi.
Image-to-video terpanas: Seedance 2.0 (ByteDance). Gerakan terstilisasi yang kuat dan konten vertikal bentuk pendek.
Penantang frontier baru: HappyHorse-1.0 (Alibaba). Audio-video gabungan, lip-sync 7 bahasa, naik di papan video Artificial Analysis; tersedia langsung di fal.ai.
Kontrol kreatif terbaik: Runway Gen-4.5. Motion brush, konsistensi adegan, dan editor timeline sungguhan — ia kehilangan posisi teratas papan peringkat tetapi masih unggul untuk pekerjaan terarah multi-shot.
HDR terbaik: Luma Ray3.14 (HDR 16-bit native).

6) Nilai terbaik & open-weight (jalur bootstrap)

Jika Anda merilis produk dan menjaga margin, ini adalah tabel terpenting dalam laporan ini. Open weight kini mendekati frontier dengan biaya sepersekiannya:

Model	Index	Harga /1M	Mengapa memilihnya
Gemini 3.1 Pro	57	$1.74	Nilai frontier tertutup terbaik
Qwen3.7 Max	57	$1.43	Penalaran frontier, konteks 1M, multibahasa kuat
MiniMax-M3 (open)	55	$0.22	Mendekati frontier, open weight, konteks 1M
Kimi K2.6 (open)	54	$0.70	Penalaran open yang kuat
DeepSeek V4 Pro (open)	52	$0.18	Kuda beban kredibel termurah; cache hit menurunkan biaya input lebih jauh
GLM-5.1 (open)	51	$0.90	Penggunaan alat / agentic yang kuat

Sumber: Artificial Analysis, Juni 2026.

7) Kecepatan (untuk real-time & rantai agen panjang)

Ketika latensi menumpuk di banyak langkah berurutan, throughput menjadi metrik penentu:

Mercury 2 (Inception, LLM difusi) — ~889 token/dtk
Granite 4.0 H Small (IBM) — ~524 t/dtk
Step 3.7 Flash — ~385 t/dtk
gpt-oss-120b (high) — ~338 t/dtk
Gemini 3.1 Flash-Lite — ~326 t/dtk