Mô hình AI tốt nhất, xếp hạng — Bảng xếp hạng tháng 6/2026 cho Văn bản, Lập trình, Tác tử, Hình ảnh & Video (Có nguồn dẫn)

Kiểm chứng lần cuối: 2026-06-15 (SGT/MYT) · Cập nhật kế tiếp: giữa tháng 7/2026. Mindber Data Drop v2026.06. Mọi con số đều được quy về nguồn đã công bố và ngày tương ứng — xem Phương pháp & nguồn dẫn bên dưới. Giá là mức ước lượng/minh họa được pha trộn và thay đổi thường xuyên; hãy xác nhận với bảng giá trực tiếp của từng nhà cung cấp trước khi quyết định chi tiêu.

Bởi Mindber Research · theo dõi mô hình AI. Các con số đã được đối chiếu với các bảng xếp hạng được trích dẫn vào ngày 2026-06-15.

Cách chúng tôi đánh giá: Phân tích biên tập có hỗ trợ AI, tổng hợp các kết quả đã công bố từ những bảng xếp hạng độc lập (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) và các trang giá của nhà cung cấp, tính đến tháng 6/2026. Mindber không tự chạy benchmark riêng và đây không phải là thử nghiệm sản phẩm trực tiếp. Mọi con số đều được quy về xuất xứ và ngày của nó; bất kỳ con số nào chúng tôi không thể xác nhận với một nguồn trực tiếp đều bị loại bỏ, chứ không phỏng đoán.

Câu trả lời ngắn gọn: không có một "mô hình AI tốt nhất" duy nhất nào trong tháng 6/2026 — chỉ có mô hình tốt nhất cho từng công việc, từng ngân sách. Hiện tại Claude Fable 5 dẫn đầu về năng lực thuần túy, GPT-5.5 dẫn đầu về tác tử lập trình, Gemini 3.1 Pro là lựa chọn giá trị tốt nhất ở phân khúc tiên phong, các mô hình trọng số mở (MiniMax-M3, DeepSeek V4, Qwen3.7 Max) thu hẹp gần hết khoảng cách với chỉ một phần nhỏ chi phí, Nano Banana 2 và GPT Image dẫn đầu về hình ảnh, còn Veo 3.1 / Kling 3.0 dẫn đầu về video sau khi Sora 2 đã ngừng hoạt động.

Dưới đây là phân tích đầy đủ — và quan trọng hơn, phần mà hầu hết các bảng xếp hạng bỏ qua: con số nào là thật và con số nào nên bỏ qua. Để xem góc nhìn Mindber trực tiếp về cùng lĩnh vực này, hãy xem bảng Model Arena và bảng xếp hạng LLM hằng tuần; để so sánh hai mô hình trực diện về giá và năng lực, hãy dùng công cụ so sánh.

Ba con số khái quát tháng 6/2026

Claude Fable 5 — đứng đầu Artificial Analysis Intelligence Index, vượt khoảng ~8 điểm so với phân khúc giá trị

Artificial Analysis, tháng 6/2026

83.4%

Codex CLI trên GPT-5.5 — dẫn đầu về tác tử lập trình trên Terminal-Bench 2.1, vượt Claude Code trên Opus 4.8 (78.9%)

tbench.ai, tháng 6/2026

~$0.18

DeepSeek V4 Pro giá pha trộn trên mỗi 1M token — chất lượng cận tiên phong với chi phí chỉ bằng khoảng một phần mười các mô hình đóng hàng đầu

Artificial Analysis, tháng 6/2026

TL;DR — mô hình tốt nhất theo từng hạng mục (tháng 6/2026)

Công việc	Lựa chọn hàng đầu	Lựa chọn giá trị tốt nhất	Con số quan trọng
Văn bản & suy luận	Claude Fable 5	Gemini 3.1 Pro / Qwen3.7 Max	AA Intelligence Index 65 so với 57
Lập trình (mô hình)	Claude Fable 5 / Opus 4.8	DeepSeek V4 / MiniMax-M3	SWE-bench Verified — nhưng hãy đọc lưu ý
Tác tử lập trình (công cụ)	GPT-5.5 (Codex CLI)	Claude Opus 4.8 (Claude Code)	Terminal-Bench 2.1: 83.4% so với 78.9%
Tác tử tổng quát / sử dụng công cụ	GPT-5.5	Dòng GLM-5 (tác vụ chăm sóc khách hàng)	Tùy benchmark — không có người thắng tuyệt đối
Hình ảnh	Nano Banana 2	Seedream 5.0 (khối lượng lớn)	Arena theo sở thích con người + chi phí mỗi ảnh
Video	Veo 3.1 (điện ảnh + âm thanh)	Kling 3.0 (~$0.10/giây)	Sora 2 đang bị đóng — hãy chuyển đổi
Rẻ nhất ở chất lượng tiên phong	DeepSeek V4 Pro	MiniMax-M3	~$0.18–0.22 giá pha trộn /1M token
Đầu ra nhanh nhất	Mercury 2	Gemini 3.1 Flash-Lite	~889 t/s so với ~326 t/s

Các con số năng lực: Artificial Analysis Intelligence Index, tháng 6/2026 (381 mô hình). Lập trình: vals.ai SWE-bench Verified + Scale AI SEAL. Tác tử: tbench.ai Terminal-Bench 2.1. Chúng tôi quy mọi con số về nguồn và ngày của nó — xem Phương pháp bên dưới.

Có gì thay đổi trong tháng này

Phân khúc tiên phong lại dịch chuyển vào cuối tháng 5 và đầu tháng 6:

Claude Fable 5 ra mắt chính thức (GA) ngày 9 tháng 6/2026 ($10 / $50 mỗi 1M token, ngữ cảnh 1M-token). Nó ra mắt ở vị trí #1 trên Artificial Analysis Intelligence Index (65) và đứng đầu SWE-bench Verified (95.0%). Chúng tôi phân tích cách truy cập, các biện pháp bảo vệ và prompt trong hướng dẫn Claude Fable 5, và bạn có thể xem cách diễn giải của chính Anthropic trong thông báo của họ.
Claude Opus 4.8 ra mắt ngày 28 tháng 5/2026 ($5 / $25). Nó đạt 88.6% trên SWE-bench Verified và 74.6% trên Terminal-Bench 2.1 — điểm cân bằng giá trên năng lực tốt nhất trong dòng Claude. Xem bảng điểm của nó và công cụ tính chi phí Opus 4.8 để biết phép tính điểm hòa vốn.
GPT-5.5 (23 tháng 4/2026) là mô hình mặc định dùng hằng ngày của OpenAI, với mức giảm khoảng ~60% các trường hợp "ảo giác" (hallucination) so với GPT-5.4 theo báo cáo. Hiện tại nó dẫn đầu về tác tử lập trình thông qua Codex; mức giá hiện hành có trên trang giá của OpenAI.
Sora 2 đang bị ngừng. OpenAI đã đóng web/ứng dụng Sora vào ngày 26 tháng 4/2026; API sẽ đóng vào ngày 24 tháng 9/2026. Đừng khởi tạo pipeline video mới trên nền tảng này.
Trọng số mở gần như đã đuổi kịp. DeepSeek V4, MiniMax-M3 và Qwen3.7 Max giờ chỉ còn cách Gemini 3.1 Pro khoảng ~0.2 điểm trên SWE-bench Verified — với chi phí token chỉ khoảng một phần mười.

Điểm mấu chốt: đỉnh của bảng giờ là một vùng bình nguyên, chứ không phải một khoảng cách. Những quyết định đáng quan tâm trong năm 2026 là về chi phí, tốc độ và mức độ phù hợp — không phải chạy theo vị trí #1.

1) Văn bản & suy luận

Con số năng lực đơn lẻ rõ ràng nhất là Artificial Analysis Intelligence Index — một chỉ số tổng hợp từ GPQA Diamond, MMLU-Pro, AIME, LiveCodeBench và một số benchmark khác, được chuẩn hóa về một điểm duy nhất.

#	Mô hình	Nhà phát triển	Intelligence Index	Giá pha trộn /1M	Ngữ cảnh
1	Claude Fable 5 (max effort)	Anthropic	65	$7.70	1M
2	Claude Opus 4.8 (max)	Anthropic	61	$3.85	1M
3	GPT-5.5 (xhigh)	OpenAI	60	$4.35	922k
4	GPT-5.5 (high)	OpenAI	59	$4.35	922k
5	Gemini 3.1 Pro Preview	Google	57	$1.74	1M
5	Qwen3.7 Max	Alibaba	57	$1.43	1M
5	Claude Opus 4.7 (max)	Anthropic	57	$3.85	1M
8	Gemini 3.5 Flash	Google	55	$1.31	1M
8	MiniMax-M3 (open)	MiniMax	55	$0.22	1M
10	Kimi K2.6 (open)	Moonshot	54	$0.70	256k

Nguồn: Artificial Analysis Intelligence Index, tháng 6/2026.

Hãy đọc bảng này như sau: năm mô hình hàng đầu chỉ cách nhau ~8 điểm trên một bộ suy luận rộng — đủ gần để với hầu hết khối lượng công việc thực tế, chúng có thể thay thế cho nhau về chất lượng. Nơi chúng tách biệt mạnh là giá. Gemini 3.1 Pro mang lại năng lực suy luận index-57 ở mức $1.74; Qwen3.7 Max cũng đạt mức đó với $1.43; MiniMax-M3 đạt index-55 ở mức $0.22. Trả mức giá của Fable 5 ($7.70 pha trộn) chỉ hợp lý cho 5–10% tác vụ thực sự khó nhất. Nếu chi tiêu của bạn chủ yếu đến từ một khối lượng lớn các lệnh gọi có độ khó trung bình, thì phân khúc giá trị không phải là một sự thỏa hiệp — nó là lựa chọn mặc định đúng đắn, và bạn có thể kiểm tra lại sự đánh đổi này trên bảng xếp hạng Mindber.

Sở thích con người so với benchmark: LMArena (bỏ phiếu A/B ẩn danh) và Intelligence Index đo những thứ khác nhau — một bên nắm bắt điều người ta thích, bên kia nắm bắt điều mô hình làm được. Dòng Claude và Gemini thay phiên nhau dẫn đầu bảng văn bản của LMArena, và các thứ hạng đó dịch chuyển từ tuần này sang tuần khác. Khi hai bảng xếp hạng bất đồng, khoảng cách đó thường có nghĩa là một mô hình bị tinh chỉnh quá mức hoặc chưa đủ cho phong cách trò chuyện, chứ không phải một nguồn nào "sai". Đây chính là lý do phương pháp chấm điểm của Mindber giữ năng lực và sở thích như hai trục riêng biệt thay vì gộp chúng thành một con số duy nhất.

2) Lập trình

Đây là hạng mục có nhiều con số gây hiểu lầm nhất trên internet, vậy nên hãy đọc kỹ.

#	Mô hình	SWE-bench Verified	Giá /1M (vào/ra)
1	Claude Fable 5	95.0%	$10 / $50
2	Claude Opus 4.8	88.6%	$5 / $25
3	GPT-5.5	82.6%	$5 / $30
4	Claude Opus 4.7	~82%	$5 / $25
5	MiniMax-M3 (open)	80.5%	$0.30 / $1.20
5	Gemini 3.5 Flash	78.8%	$1.31 blended

Nguồn: vals.ai SWE-bench Verified, tháng 6/2026. (Điểm Opus 4.7 được báo cáo dao động 82–88% tùy theo harness — xem lưu ý.)

⚠️ Kiểm tra thực tế mà hầu hết các bảng xếp hạng sẽ không cho bạn biết

SWE-bench Verified một phần đã bão hòa và một phần đã bị thuộc lòng. Cuộc kiểm tra của chính OpenAI phát hiện rằng các mô hình tiên phong có thể tái tạo nguyên văn các bản vá "gold" cho một số tác vụ — 500 issue Python đã rò rỉ vào dữ liệu huấn luyện trước khi benchmark được công bố rộng rãi. OpenAI đã ngừng báo cáo điểm Verified và giờ chuyển sang dùng SWE-bench Pro.

Trên bảng xếp hạng chuẩn hóa SEAL của Scale AI (cùng một bộ khung như nhau cho mọi mô hình), các con số sụt giảm:

Điểm chuẩn hóa công khai tốt nhất: ~59.1% (GPT-5.4 xHigh)
Bộ thương mại riêng tư: không mô hình nào vượt ~47.1%
Mức sụt thường thấy khi chuyển từ Verified → Pro: 15–35 điểm

Vậy nên khi bạn thấy "95% trên SWE-bench", hãy dịch nó thành: "benchmark đã bão hòa, tỷ lệ thành công thực tế chỉ khoảng một nửa con số đó trên những đoạn code khó hơn và chưa từng thấy." Hãy dùng các con số Pro / chuẩn hóa cho các quyết định mua sắm, và chỉ dùng Verified để xếp hạng tương đối thô. Bài học sâu hơn là điều mà phương pháp kiểm chứng của Mindber dựa chắc vào: một con số benchmark nổi bật là một giả thuyết khởi đầu, không phải một quyết định mua hàng.

3) Tác tử & sử dụng công cụ

Với công việc dạng tác tử, hệ thống (harness) quan trọng ngang với mô hình. Cùng một mô hình cho điểm khác nhau bên trong Codex CLI so với Claude Code trên Opus 4.8 so với một bộ khung tùy chỉnh — các bảng xếp hạng tác tử xếp hạng cặp tác tử + mô hình, chứ không phải mô hình đơn lẻ.

Terminal-Bench 2.1 (vận hành một máy tính thật qua terminal — biên dịch code, thiết lập máy chủ, chạy quy trình dữ liệu):

#	Tác tử + mô hình	Điểm
1	Codex CLI on GPT-5.5	83.4%
2	Claude Code on Opus 4.8	78.9%
3	Gemini CLI on Gemini 3.1 Pro	70.7% (±2.9)

Nguồn: tbench.ai, tháng 6/2026.

Chăm sóc khách hàng / sử dụng công cụ có cấu trúc (τ²-bench): một bức tranh hoàn toàn khác — các mô hình dòng GLM (ví dụ GLM-4.7-Flash đạt 98.8%) đứng đầu các tác vụ gọi công cụ bán lẻ/hàng không. Một mô hình thắng ở tự động hóa terminal có thể thua ở việc sử dụng công cụ chăm sóc khách hàng nhiều lượt. Hãy chọn tác tử theo tác vụ bạn thực sự chạy, chứ không phải theo một bảng xếp hạng duy nhất — và nếu bạn chưa chắc những mô hình nào nên có trong danh sách rút gọn của mình, hãy bắt đầu từ thư mục công cụ AI đã lọc theo trường hợp sử dụng của bạn.

4) Tạo hình ảnh

Cuộc đua hình ảnh đã chia thành các làn rõ rệt — không có vị trí #1 tổng thể, chỉ có vị trí tốt nhất theo từng làn.

Cân bằng toàn diện tốt nhất / nhất quán nhân vật: Nano Banana 2 (Gemini 3.1 Flash Image). 4K gốc, giữ khuôn mặt và phong cách ổn định qua các lần chỉnh sửa — lý tưởng cho nội dung theo loạt (linh vật, storyboard, chiến dịch). Cao cấp ở mức ~$0.13–0.24/ảnh.
Văn bản & kiểu chữ tốt nhất: GPT Image (1.5 / 2). Một không gian tiềm ẩn "biết suy nghĩ", lập luận qua các chỉ dẫn không gian — mô hình duy nhất bạn có thể tin tưởng để viết đúng chính tả một tiêu đề. Liên tục được đánh giá hàng đầu trên Arena.ai về độ bám sát prompt.
Giá trị tốt nhất / khối lượng lớn: Seedream 5.0 (ByteDance). Chất lượng 4K cấp sản xuất ở mức ~$0.026–0.032/ảnh — được xây dựng cho danh mục thương mại điện tử và lịch nội dung.
Tốt nhất cho logo & poster: Ideogram v3.
Tốt nhất để khóa thương hiệu/phong cách & trọng số mở: Flux 2 Pro (các phân khúc dev/pro/max).
Tốt nhất cho prompt không phải tiếng Anh: Qwen Image (mạnh ở tiếng Trung, tiếng Ả Rập, tiếng Tây Ban Nha).
Nhanh nhất: Z-Image Turbo (~1 giây mỗi ảnh).

Dành cho các nhà sáng tạo Đông Nam Á / đa ngôn ngữ: Qwen Image và Seedream xử lý prompt tiếng Trung và prompt pha trộn nhiều hệ chữ đáng tin cậy hơn các mô hình được tinh chỉnh theo phương Tây, và bài toán kinh tế trên mỗi ảnh của Seedream khiến việc chụp ảnh sản phẩm theo lô trở nên khả thi với ngân sách nhỏ. Bạn có thể duyệt qua lĩnh vực tạo hình ảnh, kèm điểm Mindber và giá trực tiếp, trong thư mục khám phá.

5) Tạo video

Câu chuyện lớn nhất là một sự ra đi: Sora 2 đang bị đóng (web/ứng dụng ngày 26 tháng 4/2026; API ngày 24 tháng 9/2026). Nếu bạn đang dùng nó, hãy lên kế hoạch chuyển đổi ngay bây giờ. Đây là lĩnh vực còn lại:

Chất lượng điện ảnh tốt nhất + âm thanh gốc: Veo 3.1 (Google). Mô hình duy nhất tạo ra lời thoại đồng bộ 48kHz — không chỉ là hiệu ứng âm thanh. Độ chân thực ảnh tốt nhất trên chủ thể con người và ánh sáng tự nhiên. ~$0.15–1.20 mỗi clip 5 giây tùy phân khúc.
Giá trị tốt nhất: Kling 3.0 (Kuaishou). 4K gốc, 60fps, nhép môi đa ngôn ngữ, ~$0.10/giây — con ngựa thồ cho việc lặp lại.
Image-to-video nóng nhất: Seedance 2.0 (ByteDance). Chuyển động cách điệu mạnh và nội dung dọc dạng ngắn.
Ứng viên tiên phong mới: HappyHorse-1.0 (Alibaba). Âm thanh-video kết hợp, nhép môi 7 ngôn ngữ, đang leo lên bảng video của Artificial Analysis; đã hoạt động trên fal.ai.
Kiểm soát sáng tạo tốt nhất: Runway Gen-4.5. Cọ chuyển động, nhất quán cảnh và một trình chỉnh sửa dòng thời gian thực sự — nó đã mất vị trí dẫn đầu bảng xếp hạng nhưng vẫn thắng ở công việc đa cảnh có chỉ đạo.
HDR tốt nhất: Luma Ray3.14 (HDR 16-bit gốc).

Lưu ý: điểm arena video tồn tại trên các thang khác nhau (LMArena text-to-video so với Artificial Analysis), nên việc so sánh con số chéo giữa các bảng là không đáng tin cậy. Hãy xem chúng như những người dẫn đầu từng làn, chứ không phải một chiếc thang xếp hạng duy nhất.

6) Giá trị tốt nhất & trọng số mở (làn khởi nghiệp tinh gọn)

Nếu bạn đang xuất xưởng một sản phẩm và để mắt đến biên lợi nhuận, đây là bảng quan trọng nhất trong báo cáo này. Trọng số mở giờ đã cận tiên phong với chi phí chỉ bằng một phần nhỏ:

Mô hình	Index	Giá /1M	Vì sao chọn nó
Gemini 3.1 Pro	57	$1.74	Giá trị tiên phong đóng tốt nhất
Qwen3.7 Max	57	$1.43	Suy luận tiên phong, ngữ cảnh 1M, đa ngôn ngữ mạnh
MiniMax-M3 (open)	55	$0.22	Cận tiên phong, trọng số mở, ngữ cảnh 1M
Kimi K2.6 (open)	54	$0.70	Suy luận mở mạnh
DeepSeek V4 Pro (open)	52	$0.18	Con ngựa thồ đáng tin rẻ nhất; cache hit còn giảm chi phí đầu vào hơn nữa
GLM-5.1 (open)	51	$0.90	Sử dụng công cụ / tác tử mạnh

Nguồn: Artificial Analysis, tháng 6/2026.

Chiến thuật định tuyến (routing): thiết lập tối ưu chi phí không phải là một mô hình duy nhất — mà là một bộ định tuyến. Ghim ~80% lưu lượng vào một con ngựa thồ giá rẻ (DeepSeek V4 / MiniMax-M3 / một Gemini Flash nhỏ) và để dành một mô hình tiên phong (Opus 4.8 / Fable 5) cho 20% khó nhất. Làm đúng cách, cách này vượt qua bất kỳ gói thuê bao đơn-mô-hình nào về cả chi phí lẫn chất lượng. Bài toán kinh tế của sự phân chia đó — và lý do bảng giá chỉ là một phần nhỏ của hóa đơn thực tế — được phân tích trọn vẹn từ đầu đến cuối trong Chi phí thực sự của các công cụ AI 2026.

7) Tốc độ (cho thời gian thực & chuỗi tác tử dài)

Khi độ trễ cộng dồn qua nhiều bước tuần tự, thông lượng trở thành chỉ số quyết định:

Mercury 2 (Inception, LLM khuếch tán) — ~889 token/giây
Granite 4.0 H Small (IBM) — ~524 t/s
Step 3.7 Flash — ~385 t/s
gpt-oss-120b (high) — ~338 t/s
Gemini 3.1 Flash-Lite — ~326 t/s

Nguồn: tốc độ đầu ra trung vị của Artificial Analysis, tháng 6/2026. Với trải nghiệm chat, bất cứ mức nào trên ~150 t/s đều cảm thấy tức thì; tốc độ quan trọng nhất đối với các vòng lặp tác tử và tác vụ theo lô, nơi mỗi giây dôi ra đều được nhân lên theo số bước tuần tự trong chuỗi.

Cách chọn một mô hình trong thực tế

Đừng tối ưu cho vị trí #1. Hãy khớp mô hình với công việc:

Suy luận khó nhất, không tiếc tiền → Claude Fable 5 hoặc Opus 4.8.
Chất lượng tốt nhất trên mỗi đô-la ở phân khúc tiên phong → Gemini 3.1 Pro hoặc Qwen3.7 Max.
Tự lưu trữ / lưu trú dữ liệu / chi phí thấp nhất → MiniMax-M3, DeepSeek V4, hoặc Qwen3.7 Max.
Lập trình bên trong một tác tử → GPT-5.5 qua Codex, hoặc Opus 4.8 qua Claude Code.
Hình ảnh — tổng quát → Nano Banana 2; văn bản trong ảnh → GPT Image; khối lượng lớn → Seedream 5.
Video — điện ảnh + âm thanh → Veo 3.1; giá trị/lặp lại → Kling 3.0.
Thời gian thực / thông lượng cao → Mercury 2 hoặc một mô hình phân khúc Flash.

Lưới quyết định bên dưới là cùng một logic ở dạng bạn có thể trao cho người mua:

Lưới quyết định cho người mua

Chất lượng hơn chi phí

Suy luận khó nhất

Claude Fable 5 (index 65) hoặc Opus 4.8 (61)
Đáng tiền cho 5–10% tác vụ khó nhất
Định tuyến công việc dễ sang nơi khác — đừng mặc định dùng ở đây

Chất lượng trên mỗi đô-la

Giá trị tốt nhất ở phân khúc tiên phong

Gemini 3.1 Pro ($1.74) hoặc Qwen3.7 Max ($1.43)
Index 57 — chỉ trong vòng ~8 điểm so với đỉnh
Lựa chọn mặc định đúng đắn cho hầu hết lưu lượng sản xuất

Biên lợi nhuận hoặc lưu trú dữ liệu

Chi phí thấp nhất / tự lưu trữ

MiniMax-M3 ($0.22), DeepSeek V4 ($0.18)
Trọng số mở, ngữ cảnh 1M, có thể tự lưu trữ
Cache hit còn giảm chi phí đầu vào hơn nữa

Hệ thống quan trọng ngang với mô hình

Lập trình bên trong một tác tử

GPT-5.5 qua Codex đứng đầu Terminal-Bench 2.1
Opus 4.8 qua Claude Code bám sát phía sau
Xếp hạng cặp tác tử+mô hình, không phải mô hình đơn lẻ

Tốt nhất theo từng làn, không có #1 tổng thể

Hình ảnh & video

Hình ảnh: Nano Banana 2 / GPT Image / Seedream 5
Video: Veo 3.1 (âm thanh) hoặc Kling 3.0 (giá trị)
API Sora 2 đóng ngày 24 tháng 9/2026 — hãy chuyển đổi

Độ trễ cộng dồn trong các vòng lặp tác tử

Thời gian thực / thông lượng cao

Mercury 2 (~889 t/s) hoặc một mô hình phân khúc Flash
>150 t/s đã cảm thấy tức thì trong chat
Tốc độ mang tính quyết định cho tác vụ theo lô + chuỗi nhiều bước

Câu hỏi thường gặp

Mô hình AI tốt nhất hiện nay là gì (tháng 6/2026)?

Về năng lực thuần túy, Claude Fable 5 dẫn đầu Artificial Analysis Intelligence Index (65). Nhưng "tốt nhất" tùy thuộc vào tác vụ: GPT-5.5 dẫn đầu về tác tử lập trình, Gemini 3.1 Pro là lựa chọn giá trị tốt nhất, và các mô hình mở như MiniMax-M3 là tốt nhất cho việc triển khai nhạy cảm về chi phí. Góc nhìn Mindber trực tiếp có trên bảng Model Arena.

Claude có tốt hơn GPT-5.5 không?

Trên Intelligence Index tổng hợp, Claude Fable 5 (65) và Opus 4.8 (61) đứng trên GPT-5.5 (60). Về tác tử lập trình (Terminal-Bench 2.1), GPT-5.5 qua Codex (83.4%) hiện nhỉnh hơn Opus 4.8 qua Claude Code (78.9%). Chúng đủ gần nhau để mức độ phù hợp quy trình làm việc và giá thường là yếu tố quyết định — công cụ tính chi phí Opus 4.8 giúp ích cho khía cạnh tiền bạc.

Mô hình AI miễn phí hoặc mã nguồn mở tốt nhất là gì?

MiniMax-M3 (Intelligence Index 55) là mô hình trọng số mở cận tiên phong mạnh nhất, tiếp theo là Kimi K2.6 (54) và DeepSeek V4 Pro (52). Tất cả đều có thể tự lưu trữ và rẻ hơn đáng kể so với các mô hình tiên phong đóng.

Mô hình AI tốt rẻ nhất là gì?

DeepSeek V4 Pro (~~$0.18 giá pha trộn /1M token, index 52) và MiniMax-M3 (~~$0.22, index 55) mang lại chất lượng cận tiên phong với chi phí chỉ khoảng một phần mười các mô hình đóng hàng đầu.

Mô hình AI tốt nhất cho lập trình là gì?

Theo mô hình: Claude Fable 5 / Opus 4.8 dẫn đầu SWE-bench Verified. Theo tác tử lập trình: GPT-5.5 (Codex) đứng đầu Terminal-Bench 2.1. Lưu ý SWE-bench Verified một phần đã bão hòa — hãy kiểm tra SWE-bench Pro để có tín hiệu sát thực tế.

Vì sao điểm SWE-bench lại cao đến vậy — chúng có thật không?

Hãy thận trọng với các điểm SWE-bench Verified trên 90%. Benchmark này có tình trạng nhiễm dữ liệu huấn luyện đã được biết đến; OpenAI đã ngừng báo cáo nó. Trên bảng xếp hạng chuẩn hóa SEAL của Scale, điểm công khai tốt nhất là ~59%, và không mô hình nào vượt ~47% trên bộ riêng tư. Tỷ lệ thành công lập trình thực tế chỉ khoảng một nửa con số Verified nổi bật.

Trình tạo hình ảnh AI tốt nhất năm 2026 là gì?

Nano Banana 2 cho dùng tổng quát và nhất quán nhân vật, GPT Image cho văn bản/kiểu chữ, và Seedream 5.0 cho sản xuất khối lượng lớn, nhạy cảm về chi phí.

Trình tạo video AI tốt nhất hiện nay là gì khi Sora không còn nữa?

Veo 3.1 cho chất lượng điện ảnh với âm thanh đồng bộ gốc, và Kling 3.0 cho giá trị tốt nhất (~$0.10/giây). API của Sora 2 đóng vào ngày 24 tháng 9/2026.

Bảng xếp hạng này được cập nhật bao lâu một lần?

Hằng tháng. Đây là phiên bản tháng 6/2026; lần làm mới kế tiếp sẽ vào giữa tháng 7/2026. Giữa các phiên bản, bảng Model Arena và nguồn cấp Có gì mới theo dõi các đợt ra mắt ngay khi chúng diễn ra.

Phương pháp & nguồn dẫn

Chúng tôi không chạy benchmark riêng của mình hay bịa ra điểm số. Bảng xếp hạng này tổng hợp các kết quả đã công bố từ các nguồn độc lập và quy mọi con số về xuất xứ và ngày của nó — chính sự minh bạch đó là điểm cốt lõi, và đó cũng là tiêu chuẩn mà phương pháp chấm điểm của chúng tôi áp dụng cho mọi trang sản phẩm.

Năng lực / giá / tốc độ: Artificial Analysis Intelligence Index (381 mô hình), tháng 6/2026.
Lập trình: vals.ai (SWE-bench Verified) và Scale AI SEAL (SWE-bench Pro, bộ khung chuẩn hóa), tháng 6/2026.
Tác tử: tbench.ai (Terminal-Bench 2.1) và τ²-bench, tháng 6/2026.
Sở thích con người: LMArena (bỏ phiếu A/B ẩn danh), tháng 6/2026.
Giá & thông số của nhà cung cấp: các trang giá của Anthropic, OpenAI và Google Gemini, tháng 6/2026.

Giá là mức pha trộn/minh họa và thay đổi thường xuyên — hãy xác nhận với bảng giá trực tiếp của từng nhà cung cấp trước khi quyết định chi tiêu. Một số mô hình bản xem trước nghiên cứu (ví dụ các bản xem trước phân khúc Mythos) xuất hiện trên các bảng xếp hạng nhưng chưa được phát hành rộng rãi; chúng tôi xếp hạng lĩnh vực có thể sử dụng công khai. Để có bức tranh đầy đủ về chi phí thực sự của một mô hình khi đã tính cả các lần thử lại, sự bất đối xứng đầu ra và các chỗ ngồi nhàn rỗi, hãy đọc Chi phí thực sự của các công cụ AI 2026.

Phát hiện một lỗi hay một bản phát hành mới mà chúng tôi bỏ sót? Đó là cách nhanh nhất để cải thiện một bảng xếp hạng — hãy cho chúng tôi biết.

Khám phá thêm trên Mindber: bảng xếp hạng Model Arena trực tiếp · Có gì mới · bảng xếp hạng LLM hằng tuần · toàn bộ thư mục công cụ AI · tất cả hướng dẫn của chúng tôi.

Liên quan trên Mindber

Kiểm chứng lần cuối: 2026-06-15 (SGT/MYT) · Cập nhật kế tiếp: giữa tháng 7/2026. Mindber Data Drop v2026.06. Mọi con số đều được quy về nguồn đã công bố và ngày tương ứng — xem Phương pháp & nguồn dẫn bên dưới. Giá là mức ước lượng/minh họa được pha trộn và thay đổi thường xuyên; hãy xác nhận với bảng giá trực tiếp của từng nhà cung cấp trước khi quyết định chi tiêu.

Bởi Mindber Research · theo dõi mô hình AI. Các con số đã được đối chiếu với các bảng xếp hạng được trích dẫn vào ngày 2026-06-15.

Cách chúng tôi đánh giá: Phân tích biên tập có hỗ trợ AI, tổng hợp các kết quả đã công bố từ những bảng xếp hạng độc lập (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) và các trang giá của nhà cung cấp, tính đến tháng 6/2026. Mindber không tự chạy benchmark riêng và đây không phải là thử nghiệm sản phẩm trực tiếp. Mọi con số đều được quy về xuất xứ và ngày của nó; bất kỳ con số nào chúng tôi không thể xác nhận với một nguồn trực tiếp đều bị loại bỏ, chứ không phỏng đoán.

Ba con số khái quát tháng 6/2026

Claude Fable 5 — đứng đầu Artificial Analysis Intelligence Index, vượt khoảng ~8 điểm so với phân khúc giá trị

Artificial Analysis, tháng 6/2026

83.4%

Codex CLI trên GPT-5.5 — dẫn đầu về tác tử lập trình trên Terminal-Bench 2.1, vượt Claude Code trên Opus 4.8 (78.9%)

tbench.ai, tháng 6/2026

~$0.18

DeepSeek V4 Pro giá pha trộn trên mỗi 1M token — chất lượng cận tiên phong với chi phí chỉ bằng khoảng một phần mười các mô hình đóng hàng đầu

Artificial Analysis, tháng 6/2026

TL;DR — mô hình tốt nhất theo từng hạng mục (tháng 6/2026)

Công việc	Lựa chọn hàng đầu	Lựa chọn giá trị tốt nhất	Con số quan trọng
Văn bản & suy luận	Claude Fable 5	Gemini 3.1 Pro / Qwen3.7 Max	AA Intelligence Index 65 so với 57
Lập trình (mô hình)	Claude Fable 5 / Opus 4.8	DeepSeek V4 / MiniMax-M3	SWE-bench Verified — nhưng hãy đọc lưu ý
Tác tử lập trình (công cụ)	GPT-5.5 (Codex CLI)	Claude Opus 4.8 (Claude Code)	Terminal-Bench 2.1: 83.4% so với 78.9%
Tác tử tổng quát / sử dụng công cụ	GPT-5.5	Dòng GLM-5 (tác vụ chăm sóc khách hàng)	Tùy benchmark — không có người thắng tuyệt đối
Hình ảnh	Nano Banana 2	Seedream 5.0 (khối lượng lớn)	Arena theo sở thích con người + chi phí mỗi ảnh
Video	Veo 3.1 (điện ảnh + âm thanh)	Kling 3.0 (~$0.10/giây)	Sora 2 đang bị đóng — hãy chuyển đổi
Rẻ nhất ở chất lượng tiên phong	DeepSeek V4 Pro	MiniMax-M3	~$0.18–0.22 giá pha trộn /1M token
Đầu ra nhanh nhất	Mercury 2	Gemini 3.1 Flash-Lite	~889 t/s so với ~326 t/s

Có gì thay đổi trong tháng này

Phân khúc tiên phong lại dịch chuyển vào cuối tháng 5 và đầu tháng 6:

Claude Fable 5 ra mắt chính thức (GA) ngày 9 tháng 6/2026 ($10 / $50 mỗi 1M token, ngữ cảnh 1M-token). Nó ra mắt ở vị trí #1 trên Artificial Analysis Intelligence Index (65) và đứng đầu SWE-bench Verified (95.0%). Chúng tôi phân tích cách truy cập, các biện pháp bảo vệ và prompt trong hướng dẫn Claude Fable 5, và bạn có thể xem cách diễn giải của chính Anthropic trong thông báo của họ.
Claude Opus 4.8 ra mắt ngày 28 tháng 5/2026 ($5 / $25). Nó đạt 88.6% trên SWE-bench Verified và 74.6% trên Terminal-Bench 2.1 — điểm cân bằng giá trên năng lực tốt nhất trong dòng Claude. Xem bảng điểm của nó và công cụ tính chi phí Opus 4.8 để biết phép tính điểm hòa vốn.
GPT-5.5 (23 tháng 4/2026) là mô hình mặc định dùng hằng ngày của OpenAI, với mức giảm khoảng ~60% các trường hợp "ảo giác" (hallucination) so với GPT-5.4 theo báo cáo. Hiện tại nó dẫn đầu về tác tử lập trình thông qua Codex; mức giá hiện hành có trên trang giá của OpenAI.
Sora 2 đang bị ngừng. OpenAI đã đóng web/ứng dụng Sora vào ngày 26 tháng 4/2026; API sẽ đóng vào ngày 24 tháng 9/2026. Đừng khởi tạo pipeline video mới trên nền tảng này.
Trọng số mở gần như đã đuổi kịp. DeepSeek V4, MiniMax-M3 và Qwen3.7 Max giờ chỉ còn cách Gemini 3.1 Pro khoảng ~0.2 điểm trên SWE-bench Verified — với chi phí token chỉ khoảng một phần mười.

1) Văn bản & suy luận

#	Mô hình	Nhà phát triển	Intelligence Index	Giá pha trộn /1M	Ngữ cảnh
1	Claude Fable 5 (max effort)	Anthropic	65	$7.70	1M
2	Claude Opus 4.8 (max)	Anthropic	61	$3.85	1M
3	GPT-5.5 (xhigh)	OpenAI	60	$4.35	922k
4	GPT-5.5 (high)	OpenAI	59	$4.35	922k
5	Gemini 3.1 Pro Preview	Google	57	$1.74	1M
5	Qwen3.7 Max	Alibaba	57	$1.43	1M
5	Claude Opus 4.7 (max)	Anthropic	57	$3.85	1M
8	Gemini 3.5 Flash	Google	55	$1.31	1M
8	MiniMax-M3 (open)	MiniMax	55	$0.22	1M
10	Kimi K2.6 (open)	Moonshot	54	$0.70	256k

Nguồn: Artificial Analysis Intelligence Index, tháng 6/2026.

2) Lập trình

Đây là hạng mục có nhiều con số gây hiểu lầm nhất trên internet, vậy nên hãy đọc kỹ.

#	Mô hình	SWE-bench Verified	Giá /1M (vào/ra)
1	Claude Fable 5	95.0%	$10 / $50
2	Claude Opus 4.8	88.6%	$5 / $25
3	GPT-5.5	82.6%	$5 / $30
4	Claude Opus 4.7	~82%	$5 / $25
5	MiniMax-M3 (open)	80.5%	$0.30 / $1.20
5	Gemini 3.5 Flash	78.8%	$1.31 blended

Nguồn: vals.ai SWE-bench Verified, tháng 6/2026. (Điểm Opus 4.7 được báo cáo dao động 82–88% tùy theo harness — xem lưu ý.)

⚠️ Kiểm tra thực tế mà hầu hết các bảng xếp hạng sẽ không cho bạn biết

Trên bảng xếp hạng chuẩn hóa SEAL của Scale AI (cùng một bộ khung như nhau cho mọi mô hình), các con số sụt giảm:

Điểm chuẩn hóa công khai tốt nhất: ~59.1% (GPT-5.4 xHigh)
Bộ thương mại riêng tư: không mô hình nào vượt ~47.1%
Mức sụt thường thấy khi chuyển từ Verified → Pro: 15–35 điểm

3) Tác tử & sử dụng công cụ

Terminal-Bench 2.1 (vận hành một máy tính thật qua terminal — biên dịch code, thiết lập máy chủ, chạy quy trình dữ liệu):

#	Tác tử + mô hình	Điểm
1	Codex CLI on GPT-5.5	83.4%
2	Claude Code on Opus 4.8	78.9%
3	Gemini CLI on Gemini 3.1 Pro	70.7% (±2.9)

Nguồn: tbench.ai, tháng 6/2026.

4) Tạo hình ảnh

Cuộc đua hình ảnh đã chia thành các làn rõ rệt — không có vị trí #1 tổng thể, chỉ có vị trí tốt nhất theo từng làn.

Cân bằng toàn diện tốt nhất / nhất quán nhân vật: Nano Banana 2 (Gemini 3.1 Flash Image). 4K gốc, giữ khuôn mặt và phong cách ổn định qua các lần chỉnh sửa — lý tưởng cho nội dung theo loạt (linh vật, storyboard, chiến dịch). Cao cấp ở mức ~$0.13–0.24/ảnh.
Văn bản & kiểu chữ tốt nhất: GPT Image (1.5 / 2). Một không gian tiềm ẩn "biết suy nghĩ", lập luận qua các chỉ dẫn không gian — mô hình duy nhất bạn có thể tin tưởng để viết đúng chính tả một tiêu đề. Liên tục được đánh giá hàng đầu trên Arena.ai về độ bám sát prompt.
Giá trị tốt nhất / khối lượng lớn: Seedream 5.0 (ByteDance). Chất lượng 4K cấp sản xuất ở mức ~$0.026–0.032/ảnh — được xây dựng cho danh mục thương mại điện tử và lịch nội dung.
Tốt nhất cho logo & poster: Ideogram v3.
Tốt nhất để khóa thương hiệu/phong cách & trọng số mở: Flux 2 Pro (các phân khúc dev/pro/max).
Tốt nhất cho prompt không phải tiếng Anh: Qwen Image (mạnh ở tiếng Trung, tiếng Ả Rập, tiếng Tây Ban Nha).
Nhanh nhất: Z-Image Turbo (~1 giây mỗi ảnh).

5) Tạo video

Chất lượng điện ảnh tốt nhất + âm thanh gốc: Veo 3.1 (Google). Mô hình duy nhất tạo ra lời thoại đồng bộ 48kHz — không chỉ là hiệu ứng âm thanh. Độ chân thực ảnh tốt nhất trên chủ thể con người và ánh sáng tự nhiên. ~$0.15–1.20 mỗi clip 5 giây tùy phân khúc.
Giá trị tốt nhất: Kling 3.0 (Kuaishou). 4K gốc, 60fps, nhép môi đa ngôn ngữ, ~$0.10/giây — con ngựa thồ cho việc lặp lại.
Image-to-video nóng nhất: Seedance 2.0 (ByteDance). Chuyển động cách điệu mạnh và nội dung dọc dạng ngắn.
Ứng viên tiên phong mới: HappyHorse-1.0 (Alibaba). Âm thanh-video kết hợp, nhép môi 7 ngôn ngữ, đang leo lên bảng video của Artificial Analysis; đã hoạt động trên fal.ai.
Kiểm soát sáng tạo tốt nhất: Runway Gen-4.5. Cọ chuyển động, nhất quán cảnh và một trình chỉnh sửa dòng thời gian thực sự — nó đã mất vị trí dẫn đầu bảng xếp hạng nhưng vẫn thắng ở công việc đa cảnh có chỉ đạo.
HDR tốt nhất: Luma Ray3.14 (HDR 16-bit gốc).

6) Giá trị tốt nhất & trọng số mở (làn khởi nghiệp tinh gọn)

Mô hình	Index	Giá /1M	Vì sao chọn nó
Gemini 3.1 Pro	57	$1.74	Giá trị tiên phong đóng tốt nhất
Qwen3.7 Max	57	$1.43	Suy luận tiên phong, ngữ cảnh 1M, đa ngôn ngữ mạnh
MiniMax-M3 (open)	55	$0.22	Cận tiên phong, trọng số mở, ngữ cảnh 1M
Kimi K2.6 (open)	54	$0.70	Suy luận mở mạnh
DeepSeek V4 Pro (open)	52	$0.18	Con ngựa thồ đáng tin rẻ nhất; cache hit còn giảm chi phí đầu vào hơn nữa
GLM-5.1 (open)	51	$0.90	Sử dụng công cụ / tác tử mạnh

Nguồn: Artificial Analysis, tháng 6/2026.

7) Tốc độ (cho thời gian thực & chuỗi tác tử dài)

Khi độ trễ cộng dồn qua nhiều bước tuần tự, thông lượng trở thành chỉ số quyết định:

Mercury 2 (Inception, LLM khuếch tán) — ~889 token/giây
Granite 4.0 H Small (IBM) — ~524 t/s
Step 3.7 Flash — ~385 t/s
gpt-oss-120b (high) — ~338 t/s
Gemini 3.1 Flash-Lite — ~326 t/s