Back to Blog
AI & Machine Learning

Claude Nerf 73%: Khi AI Giảm Chất Lượng Âm Thầm Và Bạn Phải Tự Bảo Vệ Mình

Admin18 tháng 4, 20265 min read
Claude Nerf 73%: Khi AI Giảm Chất Lượng Âm Thầm Và Bạn Phải Tự Bảo Vệ Mình

"Claude không tin tưởng được nữa" — Giám đốc AMD lên tiếng

Tháng 4/2026, cộng đồng AI bùng nổ một cuộc khủng hoảng niềm tin chưa từng có. Anush Elangovan, Giám đốc cấp cao ngành AI tại AMD, đăng một thread trên X (Twitter) đọc như một lá thư tuyệt vọng:

*"Claude không tin tưởng được nữa. Những task từng hoạt động hoàn hảo vào tháng 1 giờ thất bại âm thầm. Retry tăng 80 lần trên một số pipeline. Tôi đã chuyển 3 automation về GPT. Đây không còn là model mà tôi onboard team vào."*

Thread đạt 1 triệu view trong 36 giờ. Fortune, The Register, VentureBeat, Gizmodo đồng loạt đưa tin. Từ "silent nerf" trở thành trend trên AI dev Twitter. Anthropic buộc lên tiếng.

**🔥 SILENT NERF — Tóm tắt nhanh:** - **1.000.000+ view** trong 36 giờ trên thread của AMD Director - **Retry tăng 80 lần** trên pipeline Claude Code - **3 automation** đã chuyển sang GPT - Từ *"silent nerf"* thành **trend toàn cộng đồng AI**

SILENT NERF — 1 triệu view trong 36 giờ — AMD Director: Claude không tin tưởng được nữa
SILENT NERF — 1 triệu view trong 36 giờ — AMD Director: Claude không tin tưởng được nữa

Cộng đồng developer đồng loạt chia sẻ trải nghiệm Claude suy giảm — từ anecdote thành data.

6.852 sessions — Con số không biết nói dối

**📊 CON SỐ KHÔNG BIẾT NÓI DỐI:** - **6.852 sessions** log toàn bộ — không cherry-pick - **Thinking length: 2.200 → 600 ký tự** (giảm **73%**) - **Retry rate: +8.000%** trên task phức tạp - **Plan-before-act: 71% → 19%** (giảm **73%**)

6.852 SESSIONS — Thinking length giảm 73% — Retry rate tăng 8.000% — Data không nói dối
6.852 SESSIONS — Thinking length giảm 73% — Retry rate tăng 8.000% — Data không nói dối

Dashboard: Hiệu suất suy giảm rõ ràng trong 6.852 sessions.

Điều khiến vụ việc bùng nổ không phải một tweet giận dữ. Đó là bài phân tích dữ liệu của Scortier trên Substack, công bố ngày 12/4.

Scortier đã log mọi session Claude Code từ tháng 1/2026 — tổng cộng 6.852 sessions, 17.871 thinking blocks, 234.760 tool calls. Và khi vẽ biểu đồ, kết quả rõ ràng:

Chỉ sốTháng 1/2026Tháng 3/2026Thay đổi
Thinking length trung vị2.200 ký tự600 ký tự**-73%**
Retry rate (task phức tạp)baselinetăng 80 lần**+8.000%**
Tool-call depth trung vị146**-57%**
Hành vi "plan-before-act"71% sessions19% sessions**-73%**

Đây không phải noise. Đây là một policy change — thay đổi có chủ đích. AI được rút ngắn "suy nghĩ" từ 2.200 ký tự xuống 600 ký tự, khiến model nhảy đến kết luận nhanh hơn nhưng sai nhiều hơn.

Boris Cherny thừa nhận — "Tối ưu hóa" hay Downgrade ngầm?

Ngày 13/4, Boris Cherny — trưởng nhóm Claude Code tại Anthropic — đăng bài trên X thừa nhận:

*"Anthropic đã hạ mặc định reasoning effort xuống 'medium' từ đầu năm, sau khi internal benchmarks cho thấy mặc định cũ là overkill cho phần lớn workloads."*

Ông cho biết user gói trả phí có thể opt-in "high" qua flag --effort=high hoặc SDK parameter, và Anthropic đang "đánh giá liệu 'medium' có phải default đúng không."

Dịch thẳng: nerf là có thật. Hãng gọi đó là "tối ưu hóa". User gọi đó là "downgrade ngầm". Hai góc nhìn, một hiện thực.

**⚠️ NERF LÀ CÓ THẬT:** - Boris Cherny **thừa nhận** — Anthropic hạ reasoning effort xuống *"medium"* - **Downgrade** disguised as *"tối ưu hóa"* - User phải **opt-in** manual qua `--effort=high` để nhận lại chất lượng cũ - **2 tháng** suy giảm trước khi có bất kỳ thông báo nào

NERF LÀ CÓ THẬT — Downgrade từ 'tối ưu hóa' — Thinking depth -57% — Tool-call depth -57%
NERF LÀ CÓ THẬT — Downgrade từ 'tối ưu hóa' — Thinking depth -57% — Tool-call depth -57%

Biểu đồ suy giảm: khi data chứng minh điều người dùng đã cảm nhận.

"AI Shrinkflation" — Thuật ngữ mới cho trò cũ

Cộng đồng nhanh chóng đặt tên cho hiện tượng: AI Shrinkflation. Giống như shrinkflation trong ngành tiêu dùng — giữ nguyên giá, giảm chất lượng — các công ty AI:

  • 🔻 Cắt reasoning depth để tiết kiệm compute chi phí
  • 💰 Giữ nguyên (hoặc tăng) giá bán user
  • 🤫 Không thông báo thay đổi
  • 🎯 Chỉ thừa nhận khi bị bắt quả tang với data

Phản ứng dây chuyền không dừng ở một tweet:

  • Marginlab chạy SWE-Bench-Pro evaluation hàng ngày — xác nhận xu hướng suy giảm
  • Một developer reverse-engineer binary Claude Code bằng Ghidra và MITM proxy — phát hiện 2 bug độc lập phá vỡ prompt caching, gây lãng phí token thêm
  • Reddit r/ClaudeAI megathread thu hút hàng ngàn comment đồng tình
  • Hacker News thread về "shift in sentiment toward Anthropic" leo lên top

5 Bài học cho doanh nghiệp Việt Nam

Vụ Claude nerf không chỉ là drama của một công ty. Nó phơi bày rủi ro cấu trúc của ngành AI. Đây là 5 bài học trực tiếp:

1. Multi-vendor là bắt buộc, không phải lựa chọn

Nếu bạn chỉ dùng Claude cho mọi workflow, một "silent nerf" có thể phá hỏng toàn bộ pipeline qua đêm. Luôn có plan B — GPT, Gemini, DeepSeek, Qwen. Chi phí chuyển đổi là bảo hiểm rẻ hơn chi phí thất bại.

2. Logging và monitoring — tuyến phòng thủ đầu tiên

Nếu Scortier không log 6.852 sessions, sẽ không ai có bằng chứng. Hãy track thinking length, retry rate, task completion rate trên mọi AI API bạn sử dụng. Logging không phải luxury — nó là survival.

3. Reasoning depth là tài sản, không phải chi phí

Một AI "tiết kiệm" suy nghĩ sẽ bỏ lỡ edge case, tạo bug âm thầm, và cần nhiều retry hơn. Tổng cost thực tế thường cao hơn, không thấp hơn. Đừng để nhà cung cấp quyết định model suy nghĩ ít hơn "để tiết kiệm cho bạn".

4. Test lại sau mỗi update — và đọc changelog kỹ

Claude Code changelog ngày 7/4 ghi nhận nâng default effort lên "high" cho API-key users. Nhưng hiệu ứng suy giảm trước đó đã kéo dài 2 tháng mà không có thông báo rõ ràng. Changelog là nơi duy nhất bạn có thể phát hiện thay đổi — nếu bạn đọc.

5. Contract và SLA phải cover "quality degradation"

Khi ký hợp đồng AI, đảm bảo có điều khoản về minimum reasoning quality. Không chỉ uptime — mà output quality uptime. Nếu model suy giảm 73% reasoning mà SLA không mention, bạn không có quyền khiếu nại.

**💡 5 BÀI HỌC — TÓM TẮT NHANH:** - **1.** Multi-vendor là bắt buộc — Claude/GPT/Gemini/DeepSeek - **2.** Logging = Survival — Track thinking length, retry rate, completion - **3.** Reasoning depth là tài sản, không phải chi phí - **4.** Test lại sau mỗi update — Đọc changelog kỹ - **5.** SLA phải cover **quality degradation** — Không chỉ uptime

5 BÀI HỌC — Multi-vendor là bắt buộc — Logging = Survival — SLA phải cover quality degradation
5 BÀI HỌC — Multi-vendor là bắt buộc — Logging = Survival — SLA phải cover quality degradation

Khi AI "im lặng" downgrade — ai bảo vệ doanh nghiệp bạn?

Cập nhật mới nhất — Anthropic đang xoay chuyển?

Sau áp lực dư luận, Anthropic đã thay đổi default reasoning effort về "high" cho API-key users, Bedrock, Vertex, Foundry, Team và Enterprise users (ngày 7/4). Nhưng nhiều developer cho biết sự suy giảm vẫn kéo dài — gợi ý rằng vấn đề không chỉ nằm ở reasoning effort, mà có thể liên quan đến mô hình bản thân hoặc hệ thống routing.

Competitor đang tận dụng cơ hội: các công ty đối thủ công khai gọi đây là "degrade for compute" — và mời user sang nền tảng của họ.

Kết luận — Khi AI "im lặng" downgrade, bạn phải tự bảo vệ mình

Vụ Claude nerf không chỉ là drama của một công ty. Nó phơi bày một rủi ro cấu trúc của ngành AI: các nhà cung cấp có thể giảm chất lượng model bất cứ lúc nào, mà không cần thông báo.

Cho đến khi có regulation, audit độc lập, và benchmarking minh bạch — bạn phải tự bảo vệ lấy mình.

Hãy audit AI outputs. Hãy log metrics. Hãy test lại sau mỗi update. Và hãy luôn — luôn — có một plan B.


📍 Tổng hợp từ VentureBeat, ThePlanetTools, Scortier Substack, Reddit r/ClaudeAI, GitHub Issue #42796 — tháng 4/2026

🔗 Nguồn gốc dữ liệu: Scortier Substack — 6,852 Sessions Study | VentureBeat — Is Anthropic Nerfing Claude? | ThePlanetTools — Claude Got Dumb, We Have the Receipts

AIClaude AIAnthropicLLM

Bình Luận (0)

Đăng nhập để tham gia bình luận

Đang tải bình luận...

Bài Viết Liên Quan