Mindber
BerandaJelajahiPeringkatModel ArenaYang BaruBandingkanHargaBlog
Mindber

Direktori independen untuk menemukan, membandingkan, dan memantau aplikasi AI, agen AI, dan perangkat lunak otomatisasi berdasarkan kategori, harga, traffic, permintaan regional, alternatif, dan sinyal aktivitas terverifikasi.

Semua sistem beroperasi
ENEnglishCN中文ESEspañolIDIndonesiaVITiếng ViệtTHไทย

Produk

  • Temukan
  • Peringkat
  • Bandingkan
  • Harga
  • Kirim alat

Sumber daya

  • Metodologi
  • Sinyal aktivitas
  • Metodologi peringkat
  • Tingkat verifikasi
  • Riwayat metodologi
  • Sumber Data
  • Blog
  • Laporan

Perusahaan

  • Tentang
  • Klaim profil
  • Laporkan koreksi
  • Kontak

Legal

  • Ketentuan
  • Privasi
  • Penyangkalan
  • DMCA
  • Penghapusan

Intelijen berbantuan AI, ditinjau manusia sebelum publikasi. Mindber menggabungkan data publik; bukan nasihat investasi, hukum, atau pembelian.

Mindber Score™, Mindber Innovation Index™, Mindber Functionality Score™, dan Mindber Activity Score™ adalah merek dagang Mindber.

© 2026 Mindber. Seluruh hak cipta dilindungi.v2.5
  • Home
  • Discover
  • Rankings
  • Model Arena
  • Compare
  • Sign in
Lewati ke konten utama
BlogModel AI Terbaik, Diperingkat — Papan Peringkat Juni 2026 untuk Teks, Coding, Agen, Gambar & Video (Dengan Sumber)

Model AI Terbaik, Diperingkat — Papan Peringkat Juni 2026 untuk Teks, Coding, Agen, Gambar & Video (Dengan Sumber)

PanduanDiperbarui 15 Juni 202616 menit baca

Model AI terbaik pada Juni 2026 bergantung pada tugasnya: Claude Fable 5 memimpin kapabilitas, GPT-5.5 untuk agen coding, Gemini 3.1 Pro untuk nilai. Diperingkat, dengan sumber.

#best AI model 2026#AI model leaderboard#best LLM 2026#best AI model for coding#Claude Fable 5#GPT-5.5#Gemini 3.1 Pro#open-weight models#AI models
Model AI Terbaik, Diperingkat — Papan Peringkat Juni 2026 untuk Teks, Coding, Agen, Gambar & Video (Dengan Sumber) — Model AI terbaik pada Juni 2026 bergantung pada tugasnya: Claude Fable 5 memimpin kapabilitas, GPT-5.5 untuk agen coding, Gemini 3.1 Pro untuk nilai. Diperingkat, dengan sumber.

Terakhir diverifikasi: 2026-06-15 (SGT/MYT) · Pembaruan berikutnya: pertengahan Juli 2026. Mindber Data Drop v2026.06. Setiap angka dikaitkan dengan sumber dan tanggal publikasinya — lihat Metode & sumber di bawah. Harga bersifat campuran/ilustratif dan sering berubah; konfirmasikan terhadap harga langsung masing-masing penyedia sebelum berkomitmen pada pengeluaran.

Oleh Mindber Research · Pelacakan model AI. Angka diperiksa terhadap papan peringkat yang dikutip pada 2026-06-15.

Bagaimana kami menilai ini: Analisis editorial berbantuan AI yang menggabungkan hasil yang dipublikasikan dari papan peringkat independen (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) dan halaman harga vendor, per Juni 2026. Mindber tidak menjalankan benchmark privatnya sendiri dan ini bukan pengujian produk secara langsung. Setiap angka dikaitkan dengan asal dan tanggalnya; angka apa pun yang tidak dapat kami konfirmasi terhadap sumber langsung dihapus, bukan ditebak.

Jawaban singkatnya: tidak ada satu pun "model AI terbaik" pada Juni 2026 — yang ada adalah model terbaik per tugas, per anggaran. Saat ini Claude Fable 5 memuncaki kapabilitas mentah, GPT-5.5 memimpin agen coding, Gemini 3.1 Pro adalah nilai frontier terbaik, model open-weight (MiniMax-M3, DeepSeek V4, Qwen3.7 Max) menutup sebagian besar kesenjangan dengan harga sepersekiannya, Nano Banana 2 dan GPT Image memimpin gambar, serta Veo 3.1 / Kling 3.0 memimpin video kini setelah Sora 2 dipensiunkan.

Di bawah ini adalah uraian lengkapnya — dan, yang lebih penting, bagian yang dilewatkan sebagian besar papan peringkat: angka mana yang nyata dan mana yang harus diabaikan. Untuk tampilan langsung Mindber atas lanskap yang sama, lihat papan Model Arena dan peringkat LLM mingguan; untuk membandingkan dua model secara langsung dari sisi harga dan kapabilitas, gunakan alat perbandingan.

Tiga angka yang membingkai Juni 2026

65
Claude Fable 5 — puncak Artificial Analysis Intelligence Index, ~8 poin di atas tier nilai
Artificial Analysis, Juni 2026
83.4%
Codex CLI pada GPT-5.5 — pemimpin agentic-coding di Terminal-Bench 2.1, di depan Claude Code pada Opus 4.8 (78.9%)
tbench.ai, Juni 2026
~$0.18
DeepSeek V4 Pro campuran per 1M token — kualitas yang mendekati frontier dengan sekitar sepersepuluh harga model tertutup teratas
Artificial Analysis, Juni 2026

TL;DR — model terbaik per kategori (Juni 2026)

TugasPilihan teratasAlternatif nilai terbaikAngka yang penting
Teks & penalaranClaude Fable 5Gemini 3.1 Pro / Qwen3.7 MaxAA Intelligence Index 65 vs 57
Coding (model)Claude Fable 5 / Opus 4.8DeepSeek V4 / MiniMax-M3SWE-bench Verified — tetapi baca peringatannya
Agen coding (alat)GPT-5.5 (Codex CLI)Claude Opus 4.8 (Claude Code)Terminal-Bench 2.1: 83.4% vs 78.9%
Agen umum / penggunaan alatGPT-5.5Keluarga GLM-5 (tugas layanan pelanggan)Bergantung benchmark — tidak ada pemenang universal
GambarNano Banana 2Seedream 5.0 (volume)Arena preferensi manusia + biaya per gambar
VideoVeo 3.1 (sinematik + audio)Kling 3.0 (~$0.10/dtk)Sora 2 sedang ditutup — pindah darinya
Termurah pada kualitas frontierDeepSeek V4 ProMiniMax-M3~$0.18–0.22 campuran /1M token
Output tercepatMercury 2Gemini 3.1 Flash-Lite~889 t/dtk vs ~326 t/dtk

Angka kapabilitas: Artificial Analysis Intelligence Index, Juni 2026 (381 model). Coding: vals.ai SWE-bench Verified + Scale AI SEAL. Agen: tbench.ai Terminal-Bench 2.1. Kami mengaitkan setiap angka dengan sumber dan tanggalnya — lihat Metode di bawah.

Apa yang berubah bulan ini

Frontier kembali bergerak pada akhir Mei dan awal Juni:

  • Claude Fable 5 dirilis GA pada 9 Juni 2026 ($10 / $50 per 1M token, konteks 1M-token). Ia debut di #1 pada Artificial Analysis Intelligence Index (65) dan puncak SWE-bench Verified (95.0%). Kami membahas akses, pengaman, dan prompt dalam panduan Claude Fable 5, dan Anda dapat melihat penjelasan Anthropic sendiri dalam pengumumannya.
  • Claude Opus 4.8 dirilis 28 Mei 2026 ($5 / $25). Ia mencatatkan 88.6% pada SWE-bench Verified dan 74.6% pada Terminal-Bench 2.1 — titik harga-terhadap-kapabilitas terkuat dalam lini Claude. Lihat kartu skornya dan kalkulator biaya Opus 4.8 untuk perhitungan titik impas.
  • GPT-5.5 (23 April 2026) adalah model harian default OpenAI, dengan dilaporkan penurunan ~60% halusinasi dibandingkan GPT-5.4. Saat ini ia memimpin agentic coding melalui Codex; tarif terkini ada di halaman harga OpenAI.
  • Sora 2 sedang dipensiunkan. OpenAI menutup web/aplikasi Sora pada 26 April 2026; API ditutup pada 24 September 2026. Jangan mulai pipeline video baru di atasnya.
  • Open weight hampir menyusul. DeepSeek V4, MiniMax-M3, dan Qwen3.7 Max kini berada dalam ~0.2 poin dari Gemini 3.1 Pro pada SWE-bench Verified — dengan sekitar sepersepuluh harga token.

Kesimpulan utamanya: puncak tabel kini berupa dataran tinggi (plateau), bukan kesenjangan. Keputusan yang menarik di 2026 adalah soal biaya, kecepatan, dan kecocokan — bukan soal mengejar baris #1.

Frontier adalah dataran tinggi, bukan tangga

Untuk sebagian besar beban kerja nyata, lima model penalaran teratas dapat dipertukarkan dari sisi kualitas — mereka berbeda pada harga, latensi, dan seberapa baik kecocokannya dengan harness Anda. Mengejar baris #1 adalah cara paling umum tim membayar berlebih. Pilih model termurah yang melewati ambang kualitas tugas Anda, dan cadangkan tier frontier untuk irisan yang benar-benar sulit.

1) Teks & penalaran

Angka kapabilitas tunggal yang paling bersih adalah Artificial Analysis Intelligence Index — komposit dari GPQA Diamond, MMLU-Pro, AIME, LiveCodeBench, dan beberapa benchmark lain, dinormalisasi menjadi satu skor.

#ModelPembuatIntelligence IndexHarga campuran /1MKonteks
1Claude Fable 5 (max effort)Anthropic65$7.701M
2Claude Opus 4.8 (max)Anthropic61$3.851M
3GPT-5.5 (xhigh)OpenAI60$4.35922k
4GPT-5.5 (high)OpenAI59$4.35922k
5Gemini 3.1 Pro PreviewGoogle57$1.741M
5Qwen3.7 MaxAlibaba57$1.431M
5Claude Opus 4.7 (max)Anthropic57$3.851M
8Gemini 3.5 FlashGoogle55$1.311M
8MiniMax-M3 (open)MiniMax55$0.221M
10Kimi K2.6 (open)Moonshot54$0.70256k

Sumber: Artificial Analysis Intelligence Index, Juni 2026.

Bacalah seperti ini: lima model teratas terpisah hanya ~8 poin pada suite penalaran yang luas — cukup dekat sehingga untuk sebagian besar beban kerja nyata mereka dapat dipertukarkan dari sisi kualitas. Tempat mereka berbeda jauh adalah harga. Gemini 3.1 Pro memberikan penalaran index-57 seharga $1.74; Qwen3.7 Max menyamainya seharga $1.43; MiniMax-M3 mendarat di index-55 seharga $0.22. Membayar harga Fable-5 ($7.70 campuran) hanya masuk akal untuk 5–10% tugas yang benar-benar tersulit. Jika pengeluaran Anda didominasi volume tinggi panggilan berkesulitan menengah, tier nilai bukanlah kompromi — itu adalah default yang benar, dan Anda dapat memeriksa kewajaran trade-off-nya pada peringkat Mindber.

Preferensi manusia vs benchmark: LMArena (voting A/B buta) dan Intelligence Index mengukur hal yang berbeda — satu menangkap apa yang disukai orang, satunya apa yang mampu dilakukan model. Keluarga Claude dan Gemini bergantian memuncaki papan teks LMArena, dan peringkat itu bergeser dari minggu ke minggu. Ketika kedua papan peringkat berselisih, kesenjangan itu biasanya berarti sebuah model entah terlalu atau kurang disetel untuk gaya chat, bukan bahwa satu sumber "salah." Inilah persis mengapa metodologi penilaian Mindber menjaga kapabilitas dan preferensi sebagai sumbu terpisah alih-alih menggabungkannya menjadi satu angka.

2) Coding

Ini adalah kategori dengan angka paling menyesatkan di internet, jadi bacalah dengan saksama.

#ModelSWE-bench VerifiedHarga /1M (masuk/keluar)
1Claude Fable 595.0%$10 / $50
2Claude Opus 4.888.6%$5 / $25
3GPT-5.582.6%$5 / $30
4Claude Opus 4.7~82%$5 / $25
5MiniMax-M3 (open)80.5%$0.30 / $1.20
5Gemini 3.5 Flash78.8%$1.31 campuran

Sumber: vals.ai SWE-bench Verified, Juni 2026. (Skor Opus 4.7 yang dilaporkan bervariasi 82–88% di berbagai harness — lihat peringatan.)

⚠️ Pemeriksaan realitas yang tidak akan diberikan sebagian besar papan peringkat

SWE-bench Verified sebagian sudah jenuh dan sebagian terhafal. Audit OpenAI sendiri menemukan bahwa model frontier dapat mereproduksi patch "gold" secara verbatim untuk beberapa tugas — 500 isu Python itu bocor ke dalam data pelatihan sebelum benchmark dipublikasikan secara luas. OpenAI berhenti melaporkan skor Verified dan kini mengarahkan ke SWE-bench Pro sebagai gantinya.

Pada papan peringkat SEAL terstandar milik Scale AI (scaffolding identik untuk setiap model), angka-angka itu runtuh:

  • Skor terstandar publik terbaik: ~59.1% (GPT-5.4 xHigh)
  • Set komersial privat: tidak ada model yang melampaui ~47.1%
  • Penurunan tipikal saat berpindah dari Verified → Pro: 15–35 poin

Jadi ketika Anda melihat "95% pada SWE-bench," terjemahkan menjadi: "benchmark jenuh, tingkat keberhasilan dunia nyata kira-kira setengahnya pada kode yang lebih sulit dan belum pernah dilihat." Gunakan angka Pro / terstandar untuk keputusan pengadaan, dan Verified hanya untuk peringkat relatif kasar. Pelajaran yang lebih dalam adalah yang sangat ditekankan metodologi verifikasi Mindber: angka benchmark utama adalah hipotesis awal, bukan keputusan pembelian.

3) Agen & penggunaan alat

Untuk pekerjaan agentic, harness sama pentingnya dengan model. Model yang sama mendapat skor berbeda di dalam Codex CLI vs Claude Code pada Opus 4.8 vs scaffold kustom — papan peringkat agen memeringkat pasangan agen + model, bukan model saja.

Terminal-Bench 2.1 (mengoperasikan komputer nyata melalui terminal — mengompilasi kode, menyiapkan server, menjalankan alur kerja data):

#Agen + modelSkor
1Codex CLI pada GPT-5.583.4%
2Claude Code pada Opus 4.878.9%
3Gemini CLI pada Gemini 3.1 Pro70.7% (±2.9)

Sumber: tbench.ai, Juni 2026.

Layanan pelanggan / penggunaan alat terstruktur (τ²-bench): gambaran yang sama sekali berbeda — model keluarga GLM (mis. GLM-4.7-Flash di 98.8%) memuncaki tugas pemanggilan alat ritel/maskapai. Model yang menang di otomatisasi terminal bisa kalah dalam penggunaan alat layanan pelanggan multi-giliran. Pilih agen Anda berdasarkan tugas yang benar-benar Anda jalankan, bukan berdasarkan satu papan saja — dan jika Anda ragu model mana yang bahkan layak masuk daftar pendek Anda, mulailah dari direktori alat AI yang difilter sesuai kasus penggunaan Anda.

4) Pembuatan gambar

Persaingan gambar telah terbagi menjadi jalur-jalur yang jelas — tidak ada #1 secara keseluruhan, hanya yang terbaik per jalur.

  • Serba bisa terbaik / konsistensi karakter: Nano Banana 2 (Gemini 3.1 Flash Image). 4K native, menjaga wajah dan gaya tetap stabil di seluruh penyuntingan — ideal untuk konten berseri (maskot, storyboard, kampanye). Premium dengan ~$0.13–0.24/gambar.
  • Teks & tipografi terbaik: GPT Image (1.5 / 2). Ruang laten "berpikir" yang menalar instruksi spasial — satu-satunya model yang dapat Anda percaya untuk mengeja headline dengan benar. Konsisten dengan peringkat teratas di Arena.ai untuk kepatuhan prompt.
  • Nilai terbaik / volume tinggi: Seedream 5.0 (ByteDance). 4K kelas produksi seharga ~$0.026–0.032/gambar — dibangun untuk katalog e-commerce dan kalender konten.
  • Terbaik untuk logo & poster: Ideogram v3.
  • Terbaik untuk penguncian merek/gaya & open weight: Flux 2 Pro (tier dev/pro/max).
  • Terbaik untuk prompt non-Inggris: Qwen Image (kuat pada bahasa Mandarin, Arab, Spanyol).
  • Tercepat: Z-Image Turbo (~1 detik per gambar).

Untuk kreator Asia Tenggara / multibahasa: Qwen Image dan Seedream menangani prompt berbahasa Mandarin dan beraksara campuran lebih andal daripada model yang disetel untuk Barat, dan ekonomi per-gambar Seedream membuat pemotretan produk secara batch menjadi realistis dengan anggaran kecil. Anda dapat menjelajahi lanskap pembuatan gambar, lengkap dengan skor Mindber dan harga langsung, di direktori penemuan.

5) Pembuatan video

Cerita besarnya adalah sebuah kepergian: Sora 2 sedang ditutup (web/aplikasi 26 April 2026; API 24 September 2026). Jika Anda menggunakannya, rencanakan migrasi Anda sekarang. Inilah lanskap yang tersisa:

  • Kualitas sinematik + audio native terbaik: Veo 3.1 (Google). Satu-satunya model yang menghasilkan dialog tersinkronisasi 48kHz — bukan sekadar efek suara. Fotorealisme terbaik pada subjek manusia dan cahaya alami. ~$0.15–1.20 per klip 5 detik per tier.
  • Nilai terbaik: Kling 3.0 (Kuaishou). 4K native, 60fps, lip-sync multibahasa, ~$0.10/detik — kuda beban untuk iterasi.
  • Image-to-video terpanas: Seedance 2.0 (ByteDance). Gerakan terstilisasi yang kuat dan konten vertikal bentuk pendek.
  • Penantang frontier baru: HappyHorse-1.0 (Alibaba). Audio-video gabungan, lip-sync 7 bahasa, naik di papan video Artificial Analysis; tersedia langsung di fal.ai.
  • Kontrol kreatif terbaik: Runway Gen-4.5. Motion brush, konsistensi adegan, dan editor timeline sungguhan — ia kehilangan posisi teratas papan peringkat tetapi masih unggul untuk pekerjaan terarah multi-shot.
  • HDR terbaik: Luma Ray3.14 (HDR 16-bit native).

Catatan: skor arena video berada pada skala berbeda (LMArena text-to-video vs Artificial Analysis), sehingga perbandingan angka lintas papan tidak dapat diandalkan. Anggaplah ini sebagai pemimpin per jalur, bukan satu tangga peringkat tunggal.

6) Nilai terbaik & open-weight (jalur bootstrap)

Jika Anda merilis produk dan menjaga margin, ini adalah tabel terpenting dalam laporan ini. Open weight kini mendekati frontier dengan biaya sepersekiannya:

ModelIndexHarga /1MMengapa memilihnya
Gemini 3.1 Pro57$1.74Nilai frontier tertutup terbaik
Qwen3.7 Max57$1.43Penalaran frontier, konteks 1M, multibahasa kuat
MiniMax-M3 (open)55$0.22Mendekati frontier, open weight, konteks 1M
Kimi K2.6 (open)54$0.70Penalaran open yang kuat
DeepSeek V4 Pro (open)52$0.18Kuda beban kredibel termurah; cache hit menurunkan biaya input lebih jauh
GLM-5.1 (open)51$0.90Penggunaan alat / agentic yang kuat

Sumber: Artificial Analysis, Juni 2026.

Strategi routing: penyiapan optimal-biaya bukanlah satu model — melainkan sebuah router. Sematkan ~80% lalu lintas ke kuda beban murah (DeepSeek V4 / MiniMax-M3 / Gemini Flash kecil) dan cadangkan model frontier (Opus 4.8 / Fable 5) untuk 20% yang sulit. Dilakukan dengan benar, ini mengalahkan langganan model tunggal mana pun dari sisi biaya maupun kualitas. Ekonomi pembagian itu — dan mengapa daftar tarif hanya sebagian kecil dari tagihan sebenarnya — dibahas tuntas dari awal hingga akhir dalam The True Cost of AI Tools 2026.

7) Kecepatan (untuk real-time & rantai agen panjang)

Ketika latensi menumpuk di banyak langkah berurutan, throughput menjadi metrik penentu:

  • Mercury 2 (Inception, LLM difusi) — ~889 token/dtk
  • Granite 4.0 H Small (IBM) — ~524 t/dtk
  • Step 3.7 Flash — ~385 t/dtk
  • gpt-oss-120b (high) — ~338 t/dtk
  • Gemini 3.1 Flash-Lite — ~326 t/dtk

Sumber: kecepatan output median Artificial Analysis, Juni 2026. Untuk UX chat, apa pun di atas ~150 t/dtk terasa instan; kecepatan paling penting untuk loop agentic dan pekerjaan batch, di mana setiap detik ekstra dikalikan dengan jumlah langkah berurutan dalam rantai.

Cara memilih model secara nyata

Berhentilah mengoptimalkan untuk baris #1. Cocokkan model dengan tugasnya:

  • Penalaran tersulit, biaya bukan masalah → Claude Fable 5 atau Opus 4.8.
  • Kualitas terbaik per dolar di frontier → Gemini 3.1 Pro atau Qwen3.7 Max.
  • Self-hosting / residensi data / biaya terendah → MiniMax-M3, DeepSeek V4, atau Qwen3.7 Max.
  • Coding di dalam agen → GPT-5.5 via Codex, atau Opus 4.8 via Claude Code.
  • Gambar — umum → Nano Banana 2; teks dalam gambar → GPT Image; volume tinggi → Seedream 5.
  • Video — sinematik + audio → Veo 3.1; nilai/iterasi → Kling 3.0.
  • Real-time / throughput tinggi → Mercury 2 atau model tier Flash.

Grid keputusan di bawah ini adalah logika yang sama dalam bentuk yang dapat Anda serahkan kepada seorang pembeli:

Grid keputusan pembeli

Kualitas di atas biaya

Penalaran tersulit

  • Claude Fable 5 (index 65) atau Opus 4.8 (61)
  • Sepadan untuk 5–10% tugas tersulit
  • Arahkan pekerjaan mudah ke tempat lain — jangan jadikan default di sini
Kualitas per dolar

Nilai terbaik di frontier

  • Gemini 3.1 Pro ($1.74) atau Qwen3.7 Max ($1.43)
  • Index 57 — dalam ~8 poin dari puncak
  • Default yang benar untuk sebagian besar lalu lintas produksi
Margin atau residensi data

Biaya terendah / self-host

  • MiniMax-M3 ($0.22), DeepSeek V4 ($0.18)
  • Open weight, konteks 1M, dapat di-self-host
  • Cache hit menurunkan tarif input lebih jauh
Harness sama pentingnya dengan model

Coding di dalam agen

  • GPT-5.5 via Codex memuncaki Terminal-Bench 2.1
  • Opus 4.8 via Claude Code mengikuti dekat di belakang
  • Peringkat pasangan agen+model, bukan model saja
Terbaik per jalur, tidak ada #1 keseluruhan

Gambar & video

  • Gambar: Nano Banana 2 / GPT Image / Seedream 5
  • Video: Veo 3.1 (audio) atau Kling 3.0 (nilai)
  • API Sora 2 ditutup 24 Sep 2026 — pindah
Latensi menumpuk dalam loop agen

Real-time / throughput tinggi

  • Mercury 2 (~889 t/dtk) atau model tier Flash
  • >150 t/dtk sudah terasa instan dalam chat
  • Kecepatan menentukan untuk rantai batch + multi-langkah

FAQ

Apa model AI terbaik saat ini (Juni 2026)?

Untuk kapabilitas mentah, Claude Fable 5 memimpin Artificial Analysis Intelligence Index (65). Tetapi "terbaik" bergantung pada tugasnya: GPT-5.5 memimpin agentic coding, Gemini 3.1 Pro adalah nilai terbaik, dan model open seperti MiniMax-M3 paling baik untuk penerapan yang sensitif biaya. Tampilan langsung Mindber ada di papan Model Arena.

Apakah Claude lebih baik daripada GPT-5.5?

Pada Intelligence Index komposit, Claude Fable 5 (65) dan Opus 4.8 (61) berada di atas GPT-5.5 (60). Pada agentic coding (Terminal-Bench 2.1), GPT-5.5 via Codex (83.4%) saat ini sedikit mengungguli Opus 4.8 via Claude Code (78.9%). Keduanya cukup dekat sehingga kecocokan alur kerja dan harga biasanya yang menentukan — kalkulator biaya Opus 4.8 membantu dari sisi keuangan.

Apa model AI gratis atau open-source terbaik?

MiniMax-M3 (Intelligence Index 55) adalah model open-weight mendekati frontier yang terkuat, diikuti Kimi K2.6 (54) dan DeepSeek V4 Pro (52). Semuanya dapat di-self-host dan jauh lebih murah daripada model frontier tertutup.

Apa model AI bagus yang termurah?

DeepSeek V4 Pro ($0.18 campuran /1M token, index 52) dan MiniMax-M3 ($0.22, index 55) menawarkan kualitas mendekati frontier dengan sekitar sepersepuluh harga model tertutup teratas.

Apa model AI terbaik untuk coding?

Berdasarkan model: Claude Fable 5 / Opus 4.8 memimpin SWE-bench Verified. Berdasarkan agen coding: GPT-5.5 (Codex) memuncaki Terminal-Bench 2.1. Perhatikan bahwa SWE-bench Verified sebagian sudah jenuh — periksa SWE-bench Pro untuk sinyal dunia nyata.

Mengapa skor SWE-bench begitu tinggi — apakah itu nyata?

Perlakukan skor SWE-bench Verified 90%+ dengan hati-hati. Benchmark ini memiliki kontaminasi data pelatihan yang diketahui; OpenAI berhenti melaporkannya. Pada papan peringkat SEAL terstandar milik Scale, skor publik terbaik adalah ~59%, dan tidak ada model yang melampaui ~47% pada set privat. Keberhasilan coding dunia nyata kira-kira setengah dari angka utama Verified.

Apa generator gambar AI terbaik di 2026?

Nano Banana 2 untuk penggunaan umum dan konsistensi karakter, GPT Image untuk teks/tipografi, dan Seedream 5.0 untuk produksi volume tinggi yang sensitif biaya.

Apa generator video AI terbaik kini setelah Sora tiada?

Veo 3.1 untuk kualitas sinematik dengan audio tersinkronisasi native, dan Kling 3.0 untuk nilai terbaik (~$0.10/detik). API Sora 2 ditutup pada 24 September 2026.

Seberapa sering papan peringkat ini diperbarui?

Bulanan. Ini adalah edisi Juni 2026; penyegaran berikutnya hadir pertengahan Juli 2026. Di antara edisi, papan Model Arena dan umpan What's New melacak peluncuran begitu mereka hadir.

Metode & sumber

Kami tidak menjalankan benchmark privat kami sendiri atau mengarang skor. Papan peringkat ini menggabungkan hasil yang dipublikasikan dari sumber independen dan mengaitkan setiap angka dengan asal dan tanggalnya — transparansi itulah intinya, dan itu adalah standar yang sama yang dipegang metodologi penilaian kami untuk setiap halaman produk.

  • Kapabilitas / harga / kecepatan: Artificial Analysis Intelligence Index (381 model), Juni 2026.
  • Coding: vals.ai (SWE-bench Verified) dan Scale AI SEAL (SWE-bench Pro, scaffolding terstandar), Juni 2026.
  • Agen: tbench.ai (Terminal-Bench 2.1) dan τ²-bench, Juni 2026.
  • Preferensi manusia: LMArena (voting A/B buta), Juni 2026.
  • Harga & spesifikasi vendor: halaman harga Anthropic, OpenAI, dan Google Gemini, Juni 2026.

Harga bersifat campuran/ilustratif dan sering berubah — konfirmasikan terhadap harga langsung masing-masing penyedia sebelum berkomitmen pada pengeluaran. Beberapa model research-preview (mis. preview tier Mythos) muncul di papan peringkat tetapi tidak tersedia secara umum; kami memeringkat lanskap yang dapat digunakan secara publik. Untuk gambaran utuh berapa biaya sebenarnya sebuah model setelah retry, asimetri output, dan kursi menganggur dihitung, baca The True Cost of AI Tools 2026.

Menemukan kesalahan atau rilis baru yang kami lewatkan? Itu cara tercepat untuk memperbaiki sebuah papan peringkat — beri tahu kami.

Jelajahi lebih banyak di Mindber: peringkat langsung Model Arena · What's New · peringkat LLM mingguan · direktori alat AI lengkap · semua panduan kami.

Terkait di Mindber

Biaya Sebenarnya Alat AI di 2026: Label Harga vs Realitas

Mengapa biaya sebenarnya sebuah alat AI mencapai ~8x daftar tarif — model TCO bersumber lengkap dengan tujuh biaya tersembunyi.

Kalkulator Biaya Opus 4.8: Kapan Ia Mengalahkan Sonnet & GPT-5.5

Beban kerja titik impas, penghematan smart-routing, dan tarif cache per model untuk model frontier saat ini.

Claude Fable 5: Apa Itu, Cara Menggunakannya, dan Prompt yang Mengeksploitasinya

Model kelas Mythos publik pertama Anthropic — harga, pengaman, benchmark, akses, dan prompt salin-tempel.

Share this article

Pemberitahuan hukum

Publikasi ini merupakan komentar editorial atas informasi yang tersedia untuk publik dan bukan nasihat finansial, hukum, investasi, atau profesional. Nama produk, merek dagang, dan merek dagang terdaftar yang disebutkan adalah milik pemiliknya masing-masing; kemunculannya tidak menyiratkan dukungan atau afiliasi. Analisis Mindber mencerminkan penilaian editorial berdasarkan sinyal publik dan dapat berubah tanpa pemberitahuan. Skor bukan rekomendasi beli, jual, atau tahan. Tidak ada hubungan komersial antara Mindber dan vendor yang dievaluasi kecuali dinyatakan secara tertulis. Publikasi ini diatur oleh hukum Malaysia. Setiap sengketa yang timbul dari atau terkait dengan publikasi ini tunduk pada yurisdiksi eksklusif pengadilan Malaysia.

Dihasilkan AI · Laporan ini dihasilkan menggunakan model bahasa AI yang dilatih pada data yang tersedia untuk publik. Laporan ini mencerminkan analisis editorial pada saat pembuatan dan bukan hasil pengujian produk secara langsung, verifikasi independen oleh analis manusia, atau dukungan komersial. Semua skor, penilaian, dan klaim berasal dari sinyal yang diindeks oleh Mindber pada saat pembuatan dan dapat berubah tanpa pemberitahuan. Mindber dan operatornya tidak memberikan jaminan atas akurasi, kelengkapan, atau kesesuaian untuk tujuan pengambilan keputusan komersial apa pun. Laporan ini hanya untuk tujuan informasi.

MI

Mindber Research

Editorial Mindber — pelacakan model AI.

Menggabungkan hasil benchmark yang dipublikasikan (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, LMArena) dan mengaitkan setiap angka dengan sumber dan tanggalnya.

On this page
  • TL;DR — model terbaik per kategori (Juni 2026)
  • Apa yang berubah bulan ini
  • 1) Teks & penalaran
  • 2) Coding
  • ⚠️ Pemeriksaan realitas yang tidak akan diberikan sebagian besar papan peringkat
  • 3) Agen & penggunaan alat
  • 4) Pembuatan gambar
  • 5) Pembuatan video
  • 6) Nilai terbaik & open-weight (jalur bootstrap)
  • 7) Kecepatan (untuk real-time & rantai agen panjang)
  • Cara memilih model secara nyata
  • FAQ
  • Metode & sumber

Artikel terkait

Claude Fable 5: Apa Itu, Cara Menggunakannya, dan Prompt yang Mengeksploitasinya

9 Jun12 menit

Pemerintah AS Menangguhkan Claude Fable 5

13 Jun12 menit

Biaya Nyata Tool AI di 2026: Harga Stiker vs Realitas

5 Jun12 menit
Masuk
Lewati ke konten utama
BlogModel AI Terbaik, Diperingkat — Papan Peringkat Juni 2026 untuk Teks, Coding, Agen, Gambar & Video (Dengan Sumber)

Model AI Terbaik, Diperingkat — Papan Peringkat Juni 2026 untuk Teks, Coding, Agen, Gambar & Video (Dengan Sumber)

PanduanDiperbarui 15 Juni 202616 menit baca

Model AI terbaik pada Juni 2026 bergantung pada tugasnya: Claude Fable 5 memimpin kapabilitas, GPT-5.5 untuk agen coding, Gemini 3.1 Pro untuk nilai. Diperingkat, dengan sumber.

#best AI model 2026#AI model leaderboard#best LLM 2026#best AI model for coding#Claude Fable 5#GPT-5.5#Gemini 3.1 Pro#open-weight models#AI models
Model AI Terbaik, Diperingkat — Papan Peringkat Juni 2026 untuk Teks, Coding, Agen, Gambar & Video (Dengan Sumber) — Model AI terbaik pada Juni 2026 bergantung pada tugasnya: Claude Fable 5 memimpin kapabilitas, GPT-5.5 untuk agen coding, Gemini 3.1 Pro untuk nilai. Diperingkat, dengan sumber.

Terakhir diverifikasi: 2026-06-15 (SGT/MYT) · Pembaruan berikutnya: pertengahan Juli 2026. Mindber Data Drop v2026.06. Setiap angka dikaitkan dengan sumber dan tanggal publikasinya — lihat Metode & sumber di bawah. Harga bersifat campuran/ilustratif dan sering berubah; konfirmasikan terhadap harga langsung masing-masing penyedia sebelum berkomitmen pada pengeluaran.

Oleh Mindber Research · Pelacakan model AI. Angka diperiksa terhadap papan peringkat yang dikutip pada 2026-06-15.

Bagaimana kami menilai ini: Analisis editorial berbantuan AI yang menggabungkan hasil yang dipublikasikan dari papan peringkat independen (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) dan halaman harga vendor, per Juni 2026. Mindber tidak menjalankan benchmark privatnya sendiri dan ini bukan pengujian produk secara langsung. Setiap angka dikaitkan dengan asal dan tanggalnya; angka apa pun yang tidak dapat kami konfirmasi terhadap sumber langsung dihapus, bukan ditebak.

Jawaban singkatnya: tidak ada satu pun "model AI terbaik" pada Juni 2026 — yang ada adalah model terbaik per tugas, per anggaran. Saat ini Claude Fable 5 memuncaki kapabilitas mentah, GPT-5.5 memimpin agen coding, Gemini 3.1 Pro adalah nilai frontier terbaik, model open-weight (MiniMax-M3, DeepSeek V4, Qwen3.7 Max) menutup sebagian besar kesenjangan dengan harga sepersekiannya, Nano Banana 2 dan GPT Image memimpin gambar, serta Veo 3.1 / Kling 3.0 memimpin video kini setelah Sora 2 dipensiunkan.

Di bawah ini adalah uraian lengkapnya — dan, yang lebih penting, bagian yang dilewatkan sebagian besar papan peringkat: angka mana yang nyata dan mana yang harus diabaikan. Untuk tampilan langsung Mindber atas lanskap yang sama, lihat papan Model Arena dan peringkat LLM mingguan; untuk membandingkan dua model secara langsung dari sisi harga dan kapabilitas, gunakan alat perbandingan.

Tiga angka yang membingkai Juni 2026

65
Claude Fable 5 — puncak Artificial Analysis Intelligence Index, ~8 poin di atas tier nilai
Artificial Analysis, Juni 2026
83.4%
Codex CLI pada GPT-5.5 — pemimpin agentic-coding di Terminal-Bench 2.1, di depan Claude Code pada Opus 4.8 (78.9%)
tbench.ai, Juni 2026
~$0.18
DeepSeek V4 Pro campuran per 1M token — kualitas yang mendekati frontier dengan sekitar sepersepuluh harga model tertutup teratas
Artificial Analysis, Juni 2026

TL;DR — model terbaik per kategori (Juni 2026)

TugasPilihan teratasAlternatif nilai terbaikAngka yang penting
Teks & penalaranClaude Fable 5Gemini 3.1 Pro / Qwen3.7 MaxAA Intelligence Index 65 vs 57
Coding (model)Claude Fable 5 / Opus 4.8DeepSeek V4 / MiniMax-M3SWE-bench Verified — tetapi baca peringatannya
Agen coding (alat)GPT-5.5 (Codex CLI)Claude Opus 4.8 (Claude Code)Terminal-Bench 2.1: 83.4% vs 78.9%
Agen umum / penggunaan alatGPT-5.5Keluarga GLM-5 (tugas layanan pelanggan)Bergantung benchmark — tidak ada pemenang universal
GambarNano Banana 2Seedream 5.0 (volume)Arena preferensi manusia + biaya per gambar
VideoVeo 3.1 (sinematik + audio)Kling 3.0 (~$0.10/dtk)Sora 2 sedang ditutup — pindah darinya
Termurah pada kualitas frontierDeepSeek V4 ProMiniMax-M3~$0.18–0.22 campuran /1M token
Output tercepatMercury 2Gemini 3.1 Flash-Lite~889 t/dtk vs ~326 t/dtk

Angka kapabilitas: Artificial Analysis Intelligence Index, Juni 2026 (381 model). Coding: vals.ai SWE-bench Verified + Scale AI SEAL. Agen: tbench.ai Terminal-Bench 2.1. Kami mengaitkan setiap angka dengan sumber dan tanggalnya — lihat Metode di bawah.

Apa yang berubah bulan ini

Frontier kembali bergerak pada akhir Mei dan awal Juni:

  • Claude Fable 5 dirilis GA pada 9 Juni 2026 ($10 / $50 per 1M token, konteks 1M-token). Ia debut di #1 pada Artificial Analysis Intelligence Index (65) dan puncak SWE-bench Verified (95.0%). Kami membahas akses, pengaman, dan prompt dalam panduan Claude Fable 5, dan Anda dapat melihat penjelasan Anthropic sendiri dalam pengumumannya.
  • Claude Opus 4.8 dirilis 28 Mei 2026 ($5 / $25). Ia mencatatkan 88.6% pada SWE-bench Verified dan 74.6% pada Terminal-Bench 2.1 — titik harga-terhadap-kapabilitas terkuat dalam lini Claude. Lihat kartu skornya dan kalkulator biaya Opus 4.8 untuk perhitungan titik impas.
  • GPT-5.5 (23 April 2026) adalah model harian default OpenAI, dengan dilaporkan penurunan ~60% halusinasi dibandingkan GPT-5.4. Saat ini ia memimpin agentic coding melalui Codex; tarif terkini ada di halaman harga OpenAI.
  • Sora 2 sedang dipensiunkan. OpenAI menutup web/aplikasi Sora pada 26 April 2026; API ditutup pada 24 September 2026. Jangan mulai pipeline video baru di atasnya.
  • Open weight hampir menyusul. DeepSeek V4, MiniMax-M3, dan Qwen3.7 Max kini berada dalam ~0.2 poin dari Gemini 3.1 Pro pada SWE-bench Verified — dengan sekitar sepersepuluh harga token.

Kesimpulan utamanya: puncak tabel kini berupa dataran tinggi (plateau), bukan kesenjangan. Keputusan yang menarik di 2026 adalah soal biaya, kecepatan, dan kecocokan — bukan soal mengejar baris #1.

Frontier adalah dataran tinggi, bukan tangga

Untuk sebagian besar beban kerja nyata, lima model penalaran teratas dapat dipertukarkan dari sisi kualitas — mereka berbeda pada harga, latensi, dan seberapa baik kecocokannya dengan harness Anda. Mengejar baris #1 adalah cara paling umum tim membayar berlebih. Pilih model termurah yang melewati ambang kualitas tugas Anda, dan cadangkan tier frontier untuk irisan yang benar-benar sulit.

1) Teks & penalaran

Angka kapabilitas tunggal yang paling bersih adalah Artificial Analysis Intelligence Index — komposit dari GPQA Diamond, MMLU-Pro, AIME, LiveCodeBench, dan beberapa benchmark lain, dinormalisasi menjadi satu skor.

#ModelPembuatIntelligence IndexHarga campuran /1MKonteks
1Claude Fable 5 (max effort)Anthropic65$7.701M
2Claude Opus 4.8 (max)Anthropic61$3.851M
3GPT-5.5 (xhigh)OpenAI60$4.35922k
4GPT-5.5 (high)OpenAI59$4.35922k
5Gemini 3.1 Pro PreviewGoogle57$1.741M
5Qwen3.7 MaxAlibaba57$1.431M
5Claude Opus 4.7 (max)Anthropic57$3.851M
8Gemini 3.5 FlashGoogle55$1.311M
8MiniMax-M3 (open)MiniMax55$0.221M
10Kimi K2.6 (open)Moonshot54$0.70256k

Sumber: Artificial Analysis Intelligence Index, Juni 2026.

Bacalah seperti ini: lima model teratas terpisah hanya ~8 poin pada suite penalaran yang luas — cukup dekat sehingga untuk sebagian besar beban kerja nyata mereka dapat dipertukarkan dari sisi kualitas. Tempat mereka berbeda jauh adalah harga. Gemini 3.1 Pro memberikan penalaran index-57 seharga $1.74; Qwen3.7 Max menyamainya seharga $1.43; MiniMax-M3 mendarat di index-55 seharga $0.22. Membayar harga Fable-5 ($7.70 campuran) hanya masuk akal untuk 5–10% tugas yang benar-benar tersulit. Jika pengeluaran Anda didominasi volume tinggi panggilan berkesulitan menengah, tier nilai bukanlah kompromi — itu adalah default yang benar, dan Anda dapat memeriksa kewajaran trade-off-nya pada peringkat Mindber.

Preferensi manusia vs benchmark: LMArena (voting A/B buta) dan Intelligence Index mengukur hal yang berbeda — satu menangkap apa yang disukai orang, satunya apa yang mampu dilakukan model. Keluarga Claude dan Gemini bergantian memuncaki papan teks LMArena, dan peringkat itu bergeser dari minggu ke minggu. Ketika kedua papan peringkat berselisih, kesenjangan itu biasanya berarti sebuah model entah terlalu atau kurang disetel untuk gaya chat, bukan bahwa satu sumber "salah." Inilah persis mengapa metodologi penilaian Mindber menjaga kapabilitas dan preferensi sebagai sumbu terpisah alih-alih menggabungkannya menjadi satu angka.

2) Coding

Ini adalah kategori dengan angka paling menyesatkan di internet, jadi bacalah dengan saksama.

#ModelSWE-bench VerifiedHarga /1M (masuk/keluar)
1Claude Fable 595.0%$10 / $50
2Claude Opus 4.888.6%$5 / $25
3GPT-5.582.6%$5 / $30
4Claude Opus 4.7~82%$5 / $25
5MiniMax-M3 (open)80.5%$0.30 / $1.20
5Gemini 3.5 Flash78.8%$1.31 campuran

Sumber: vals.ai SWE-bench Verified, Juni 2026. (Skor Opus 4.7 yang dilaporkan bervariasi 82–88% di berbagai harness — lihat peringatan.)

⚠️ Pemeriksaan realitas yang tidak akan diberikan sebagian besar papan peringkat

SWE-bench Verified sebagian sudah jenuh dan sebagian terhafal. Audit OpenAI sendiri menemukan bahwa model frontier dapat mereproduksi patch "gold" secara verbatim untuk beberapa tugas — 500 isu Python itu bocor ke dalam data pelatihan sebelum benchmark dipublikasikan secara luas. OpenAI berhenti melaporkan skor Verified dan kini mengarahkan ke SWE-bench Pro sebagai gantinya.

Pada papan peringkat SEAL terstandar milik Scale AI (scaffolding identik untuk setiap model), angka-angka itu runtuh:

  • Skor terstandar publik terbaik: ~59.1% (GPT-5.4 xHigh)
  • Set komersial privat: tidak ada model yang melampaui ~47.1%
  • Penurunan tipikal saat berpindah dari Verified → Pro: 15–35 poin

Jadi ketika Anda melihat "95% pada SWE-bench," terjemahkan menjadi: "benchmark jenuh, tingkat keberhasilan dunia nyata kira-kira setengahnya pada kode yang lebih sulit dan belum pernah dilihat." Gunakan angka Pro / terstandar untuk keputusan pengadaan, dan Verified hanya untuk peringkat relatif kasar. Pelajaran yang lebih dalam adalah yang sangat ditekankan metodologi verifikasi Mindber: angka benchmark utama adalah hipotesis awal, bukan keputusan pembelian.

3) Agen & penggunaan alat

Untuk pekerjaan agentic, harness sama pentingnya dengan model. Model yang sama mendapat skor berbeda di dalam Codex CLI vs Claude Code pada Opus 4.8 vs scaffold kustom — papan peringkat agen memeringkat pasangan agen + model, bukan model saja.

Terminal-Bench 2.1 (mengoperasikan komputer nyata melalui terminal — mengompilasi kode, menyiapkan server, menjalankan alur kerja data):

#Agen + modelSkor
1Codex CLI pada GPT-5.583.4%
2Claude Code pada Opus 4.878.9%
3Gemini CLI pada Gemini 3.1 Pro70.7% (±2.9)

Sumber: tbench.ai, Juni 2026.

Layanan pelanggan / penggunaan alat terstruktur (τ²-bench): gambaran yang sama sekali berbeda — model keluarga GLM (mis. GLM-4.7-Flash di 98.8%) memuncaki tugas pemanggilan alat ritel/maskapai. Model yang menang di otomatisasi terminal bisa kalah dalam penggunaan alat layanan pelanggan multi-giliran. Pilih agen Anda berdasarkan tugas yang benar-benar Anda jalankan, bukan berdasarkan satu papan saja — dan jika Anda ragu model mana yang bahkan layak masuk daftar pendek Anda, mulailah dari direktori alat AI yang difilter sesuai kasus penggunaan Anda.

4) Pembuatan gambar

Persaingan gambar telah terbagi menjadi jalur-jalur yang jelas — tidak ada #1 secara keseluruhan, hanya yang terbaik per jalur.

  • Serba bisa terbaik / konsistensi karakter: Nano Banana 2 (Gemini 3.1 Flash Image). 4K native, menjaga wajah dan gaya tetap stabil di seluruh penyuntingan — ideal untuk konten berseri (maskot, storyboard, kampanye). Premium dengan ~$0.13–0.24/gambar.
  • Teks & tipografi terbaik: GPT Image (1.5 / 2). Ruang laten "berpikir" yang menalar instruksi spasial — satu-satunya model yang dapat Anda percaya untuk mengeja headline dengan benar. Konsisten dengan peringkat teratas di Arena.ai untuk kepatuhan prompt.
  • Nilai terbaik / volume tinggi: Seedream 5.0 (ByteDance). 4K kelas produksi seharga ~$0.026–0.032/gambar — dibangun untuk katalog e-commerce dan kalender konten.
  • Terbaik untuk logo & poster: Ideogram v3.
  • Terbaik untuk penguncian merek/gaya & open weight: Flux 2 Pro (tier dev/pro/max).
  • Terbaik untuk prompt non-Inggris: Qwen Image (kuat pada bahasa Mandarin, Arab, Spanyol).
  • Tercepat: Z-Image Turbo (~1 detik per gambar).

Untuk kreator Asia Tenggara / multibahasa: Qwen Image dan Seedream menangani prompt berbahasa Mandarin dan beraksara campuran lebih andal daripada model yang disetel untuk Barat, dan ekonomi per-gambar Seedream membuat pemotretan produk secara batch menjadi realistis dengan anggaran kecil. Anda dapat menjelajahi lanskap pembuatan gambar, lengkap dengan skor Mindber dan harga langsung, di direktori penemuan.

5) Pembuatan video

Cerita besarnya adalah sebuah kepergian: Sora 2 sedang ditutup (web/aplikasi 26 April 2026; API 24 September 2026). Jika Anda menggunakannya, rencanakan migrasi Anda sekarang. Inilah lanskap yang tersisa:

  • Kualitas sinematik + audio native terbaik: Veo 3.1 (Google). Satu-satunya model yang menghasilkan dialog tersinkronisasi 48kHz — bukan sekadar efek suara. Fotorealisme terbaik pada subjek manusia dan cahaya alami. ~$0.15–1.20 per klip 5 detik per tier.
  • Nilai terbaik: Kling 3.0 (Kuaishou). 4K native, 60fps, lip-sync multibahasa, ~$0.10/detik — kuda beban untuk iterasi.
  • Image-to-video terpanas: Seedance 2.0 (ByteDance). Gerakan terstilisasi yang kuat dan konten vertikal bentuk pendek.
  • Penantang frontier baru: HappyHorse-1.0 (Alibaba). Audio-video gabungan, lip-sync 7 bahasa, naik di papan video Artificial Analysis; tersedia langsung di fal.ai.
  • Kontrol kreatif terbaik: Runway Gen-4.5. Motion brush, konsistensi adegan, dan editor timeline sungguhan — ia kehilangan posisi teratas papan peringkat tetapi masih unggul untuk pekerjaan terarah multi-shot.
  • HDR terbaik: Luma Ray3.14 (HDR 16-bit native).

Catatan: skor arena video berada pada skala berbeda (LMArena text-to-video vs Artificial Analysis), sehingga perbandingan angka lintas papan tidak dapat diandalkan. Anggaplah ini sebagai pemimpin per jalur, bukan satu tangga peringkat tunggal.

6) Nilai terbaik & open-weight (jalur bootstrap)

Jika Anda merilis produk dan menjaga margin, ini adalah tabel terpenting dalam laporan ini. Open weight kini mendekati frontier dengan biaya sepersekiannya:

ModelIndexHarga /1MMengapa memilihnya
Gemini 3.1 Pro57$1.74Nilai frontier tertutup terbaik
Qwen3.7 Max57$1.43Penalaran frontier, konteks 1M, multibahasa kuat
MiniMax-M3 (open)55$0.22Mendekati frontier, open weight, konteks 1M
Kimi K2.6 (open)54$0.70Penalaran open yang kuat
DeepSeek V4 Pro (open)52$0.18Kuda beban kredibel termurah; cache hit menurunkan biaya input lebih jauh
GLM-5.1 (open)51$0.90Penggunaan alat / agentic yang kuat

Sumber: Artificial Analysis, Juni 2026.

Strategi routing: penyiapan optimal-biaya bukanlah satu model — melainkan sebuah router. Sematkan ~80% lalu lintas ke kuda beban murah (DeepSeek V4 / MiniMax-M3 / Gemini Flash kecil) dan cadangkan model frontier (Opus 4.8 / Fable 5) untuk 20% yang sulit. Dilakukan dengan benar, ini mengalahkan langganan model tunggal mana pun dari sisi biaya maupun kualitas. Ekonomi pembagian itu — dan mengapa daftar tarif hanya sebagian kecil dari tagihan sebenarnya — dibahas tuntas dari awal hingga akhir dalam The True Cost of AI Tools 2026.

7) Kecepatan (untuk real-time & rantai agen panjang)

Ketika latensi menumpuk di banyak langkah berurutan, throughput menjadi metrik penentu:

  • Mercury 2 (Inception, LLM difusi) — ~889 token/dtk
  • Granite 4.0 H Small (IBM) — ~524 t/dtk
  • Step 3.7 Flash — ~385 t/dtk
  • gpt-oss-120b (high) — ~338 t/dtk
  • Gemini 3.1 Flash-Lite — ~326 t/dtk

Sumber: kecepatan output median Artificial Analysis, Juni 2026. Untuk UX chat, apa pun di atas ~150 t/dtk terasa instan; kecepatan paling penting untuk loop agentic dan pekerjaan batch, di mana setiap detik ekstra dikalikan dengan jumlah langkah berurutan dalam rantai.

Cara memilih model secara nyata

Berhentilah mengoptimalkan untuk baris #1. Cocokkan model dengan tugasnya:

  • Penalaran tersulit, biaya bukan masalah → Claude Fable 5 atau Opus 4.8.
  • Kualitas terbaik per dolar di frontier → Gemini 3.1 Pro atau Qwen3.7 Max.
  • Self-hosting / residensi data / biaya terendah → MiniMax-M3, DeepSeek V4, atau Qwen3.7 Max.
  • Coding di dalam agen → GPT-5.5 via Codex, atau Opus 4.8 via Claude Code.
  • Gambar — umum → Nano Banana 2; teks dalam gambar → GPT Image; volume tinggi → Seedream 5.
  • Video — sinematik + audio → Veo 3.1; nilai/iterasi → Kling 3.0.
  • Real-time / throughput tinggi → Mercury 2 atau model tier Flash.

Grid keputusan di bawah ini adalah logika yang sama dalam bentuk yang dapat Anda serahkan kepada seorang pembeli:

Grid keputusan pembeli

Kualitas di atas biaya

Penalaran tersulit

  • Claude Fable 5 (index 65) atau Opus 4.8 (61)
  • Sepadan untuk 5–10% tugas tersulit
  • Arahkan pekerjaan mudah ke tempat lain — jangan jadikan default di sini
Kualitas per dolar

Nilai terbaik di frontier

  • Gemini 3.1 Pro ($1.74) atau Qwen3.7 Max ($1.43)
  • Index 57 — dalam ~8 poin dari puncak
  • Default yang benar untuk sebagian besar lalu lintas produksi
Margin atau residensi data

Biaya terendah / self-host

  • MiniMax-M3 ($0.22), DeepSeek V4 ($0.18)
  • Open weight, konteks 1M, dapat di-self-host
  • Cache hit menurunkan tarif input lebih jauh
Harness sama pentingnya dengan model

Coding di dalam agen

  • GPT-5.5 via Codex memuncaki Terminal-Bench 2.1
  • Opus 4.8 via Claude Code mengikuti dekat di belakang
  • Peringkat pasangan agen+model, bukan model saja
Terbaik per jalur, tidak ada #1 keseluruhan

Gambar & video

  • Gambar: Nano Banana 2 / GPT Image / Seedream 5
  • Video: Veo 3.1 (audio) atau Kling 3.0 (nilai)
  • API Sora 2 ditutup 24 Sep 2026 — pindah
Latensi menumpuk dalam loop agen

Real-time / throughput tinggi

  • Mercury 2 (~889 t/dtk) atau model tier Flash
  • >150 t/dtk sudah terasa instan dalam chat
  • Kecepatan menentukan untuk rantai batch + multi-langkah

FAQ

Apa model AI terbaik saat ini (Juni 2026)?

Untuk kapabilitas mentah, Claude Fable 5 memimpin Artificial Analysis Intelligence Index (65). Tetapi "terbaik" bergantung pada tugasnya: GPT-5.5 memimpin agentic coding, Gemini 3.1 Pro adalah nilai terbaik, dan model open seperti MiniMax-M3 paling baik untuk penerapan yang sensitif biaya. Tampilan langsung Mindber ada di papan Model Arena.

Apakah Claude lebih baik daripada GPT-5.5?

Pada Intelligence Index komposit, Claude Fable 5 (65) dan Opus 4.8 (61) berada di atas GPT-5.5 (60). Pada agentic coding (Terminal-Bench 2.1), GPT-5.5 via Codex (83.4%) saat ini sedikit mengungguli Opus 4.8 via Claude Code (78.9%). Keduanya cukup dekat sehingga kecocokan alur kerja dan harga biasanya yang menentukan — kalkulator biaya Opus 4.8 membantu dari sisi keuangan.

Apa model AI gratis atau open-source terbaik?

MiniMax-M3 (Intelligence Index 55) adalah model open-weight mendekati frontier yang terkuat, diikuti Kimi K2.6 (54) dan DeepSeek V4 Pro (52). Semuanya dapat di-self-host dan jauh lebih murah daripada model frontier tertutup.

Apa model AI bagus yang termurah?

DeepSeek V4 Pro ($0.18 campuran /1M token, index 52) dan MiniMax-M3 ($0.22, index 55) menawarkan kualitas mendekati frontier dengan sekitar sepersepuluh harga model tertutup teratas.

Apa model AI terbaik untuk coding?

Berdasarkan model: Claude Fable 5 / Opus 4.8 memimpin SWE-bench Verified. Berdasarkan agen coding: GPT-5.5 (Codex) memuncaki Terminal-Bench 2.1. Perhatikan bahwa SWE-bench Verified sebagian sudah jenuh — periksa SWE-bench Pro untuk sinyal dunia nyata.

Mengapa skor SWE-bench begitu tinggi — apakah itu nyata?

Perlakukan skor SWE-bench Verified 90%+ dengan hati-hati. Benchmark ini memiliki kontaminasi data pelatihan yang diketahui; OpenAI berhenti melaporkannya. Pada papan peringkat SEAL terstandar milik Scale, skor publik terbaik adalah ~59%, dan tidak ada model yang melampaui ~47% pada set privat. Keberhasilan coding dunia nyata kira-kira setengah dari angka utama Verified.

Apa generator gambar AI terbaik di 2026?

Nano Banana 2 untuk penggunaan umum dan konsistensi karakter, GPT Image untuk teks/tipografi, dan Seedream 5.0 untuk produksi volume tinggi yang sensitif biaya.

Apa generator video AI terbaik kini setelah Sora tiada?

Veo 3.1 untuk kualitas sinematik dengan audio tersinkronisasi native, dan Kling 3.0 untuk nilai terbaik (~$0.10/detik). API Sora 2 ditutup pada 24 September 2026.

Seberapa sering papan peringkat ini diperbarui?

Bulanan. Ini adalah edisi Juni 2026; penyegaran berikutnya hadir pertengahan Juli 2026. Di antara edisi, papan Model Arena dan umpan What's New melacak peluncuran begitu mereka hadir.

Metode & sumber

Kami tidak menjalankan benchmark privat kami sendiri atau mengarang skor. Papan peringkat ini menggabungkan hasil yang dipublikasikan dari sumber independen dan mengaitkan setiap angka dengan asal dan tanggalnya — transparansi itulah intinya, dan itu adalah standar yang sama yang dipegang metodologi penilaian kami untuk setiap halaman produk.

  • Kapabilitas / harga / kecepatan: Artificial Analysis Intelligence Index (381 model), Juni 2026.
  • Coding: vals.ai (SWE-bench Verified) dan Scale AI SEAL (SWE-bench Pro, scaffolding terstandar), Juni 2026.
  • Agen: tbench.ai (Terminal-Bench 2.1) dan τ²-bench, Juni 2026.
  • Preferensi manusia: LMArena (voting A/B buta), Juni 2026.
  • Harga & spesifikasi vendor: halaman harga Anthropic, OpenAI, dan Google Gemini, Juni 2026.

Harga bersifat campuran/ilustratif dan sering berubah — konfirmasikan terhadap harga langsung masing-masing penyedia sebelum berkomitmen pada pengeluaran. Beberapa model research-preview (mis. preview tier Mythos) muncul di papan peringkat tetapi tidak tersedia secara umum; kami memeringkat lanskap yang dapat digunakan secara publik. Untuk gambaran utuh berapa biaya sebenarnya sebuah model setelah retry, asimetri output, dan kursi menganggur dihitung, baca The True Cost of AI Tools 2026.

Menemukan kesalahan atau rilis baru yang kami lewatkan? Itu cara tercepat untuk memperbaiki sebuah papan peringkat — beri tahu kami.

Jelajahi lebih banyak di Mindber: peringkat langsung Model Arena · What's New · peringkat LLM mingguan · direktori alat AI lengkap · semua panduan kami.

Terkait di Mindber

Biaya Sebenarnya Alat AI di 2026: Label Harga vs Realitas

Mengapa biaya sebenarnya sebuah alat AI mencapai ~8x daftar tarif — model TCO bersumber lengkap dengan tujuh biaya tersembunyi.

Kalkulator Biaya Opus 4.8: Kapan Ia Mengalahkan Sonnet & GPT-5.5

Beban kerja titik impas, penghematan smart-routing, dan tarif cache per model untuk model frontier saat ini.

Claude Fable 5: Apa Itu, Cara Menggunakannya, dan Prompt yang Mengeksploitasinya

Model kelas Mythos publik pertama Anthropic — harga, pengaman, benchmark, akses, dan prompt salin-tempel.

Share this article

Pemberitahuan hukum

Publikasi ini merupakan komentar editorial atas informasi yang tersedia untuk publik dan bukan nasihat finansial, hukum, investasi, atau profesional. Nama produk, merek dagang, dan merek dagang terdaftar yang disebutkan adalah milik pemiliknya masing-masing; kemunculannya tidak menyiratkan dukungan atau afiliasi. Analisis Mindber mencerminkan penilaian editorial berdasarkan sinyal publik dan dapat berubah tanpa pemberitahuan. Skor bukan rekomendasi beli, jual, atau tahan. Tidak ada hubungan komersial antara Mindber dan vendor yang dievaluasi kecuali dinyatakan secara tertulis. Publikasi ini diatur oleh hukum Malaysia. Setiap sengketa yang timbul dari atau terkait dengan publikasi ini tunduk pada yurisdiksi eksklusif pengadilan Malaysia.

Dihasilkan AI · Laporan ini dihasilkan menggunakan model bahasa AI yang dilatih pada data yang tersedia untuk publik. Laporan ini mencerminkan analisis editorial pada saat pembuatan dan bukan hasil pengujian produk secara langsung, verifikasi independen oleh analis manusia, atau dukungan komersial. Semua skor, penilaian, dan klaim berasal dari sinyal yang diindeks oleh Mindber pada saat pembuatan dan dapat berubah tanpa pemberitahuan. Mindber dan operatornya tidak memberikan jaminan atas akurasi, kelengkapan, atau kesesuaian untuk tujuan pengambilan keputusan komersial apa pun. Laporan ini hanya untuk tujuan informasi.

MI

Mindber Research

Editorial Mindber — pelacakan model AI.

Menggabungkan hasil benchmark yang dipublikasikan (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, LMArena) dan mengaitkan setiap angka dengan sumber dan tanggalnya.

On this page
  • TL;DR — model terbaik per kategori (Juni 2026)
  • Apa yang berubah bulan ini
  • 1) Teks & penalaran
  • 2) Coding
  • ⚠️ Pemeriksaan realitas yang tidak akan diberikan sebagian besar papan peringkat
  • 3) Agen & penggunaan alat
  • 4) Pembuatan gambar
  • 5) Pembuatan video
  • 6) Nilai terbaik & open-weight (jalur bootstrap)
  • 7) Kecepatan (untuk real-time & rantai agen panjang)
  • Cara memilih model secara nyata
  • FAQ
  • Metode & sumber

Artikel terkait

Claude Fable 5: Apa Itu, Cara Menggunakannya, dan Prompt yang Mengeksploitasinya

9 Jun12 menit

Pemerintah AS Menangguhkan Claude Fable 5

13 Jun12 menit

Biaya Nyata Tool AI di 2026: Harga Stiker vs Realitas

5 Jun12 menit