
Claude Opus 4.7: o que mudou e o que observar
Anthropic lançou o Opus 4.7 em meio à controvérsia sobre regressão do 4.6. Benchmarks fortes, admissões honestas, e o que fica pra observar.
Claude Opus 4.7: o que mudou e o que observar
Lançamento chega em meio a controvérsia sobre regressão, com benchmarks fortes e uma admissão rara: existe um modelo mais capaz que a empresa preferiu não liberar ainda.
Contexto
A Anthropic lançou o Claude Opus 4.7 hoje, 16 de abril de 2026. O release chega num momento pouco comum. Há duas semanas, Stella Laurenzo, diretora sênior do grupo de IA da AMD, publicou uma issue no GitHub com análise de 6.852 sessões de Claude Code, 234.760 tool calls e 17.871 blocos de thinking. A conclusão: o Claude Code passou a ler menos antes de editar (razão reads-per-edit caiu de 6,6 para 2,0), parava cedo demais e entrava em loops de raciocínio. Resumo dela: "não pode ser confiado" em engenharia complexa.
Boris Cherny, que lidera o Claude Code na Anthropic, agradeceu o rigor do estudo e rejeitou a conclusão central. A empresa nega ter mexido no modelo.
É nesse clima que o 4.7 estreia.
O que entra com o Opus 4.7
A Anthropic descreve o 4.7 como seu modelo GA mais capaz, com foco em trabalho agêntico longo, coding e visão. Os números auto-reportados pela empresa:
| Benchmark | Opus 4.6 | Opus 4.7 |
|---|---|---|
| CursorBench | 58% | 70% |
| XBOW Visual-Acuity | 54,5% | 98,5% |
| Rakuten-SWE-Bench | baseline | 3× mais tarefas resolvidas |
| Terminal-Bench 2.0 | sem baseline | 3 tarefas que nenhum Claude anterior fechou |
Na parte de visão, a resolução máxima de imagem subiu de 1.568 px / 1,15 MP para 2.576 px / 3,75 MP. Para workflows de screenshot, documento e "computer use", a diferença é palpável.
Avaliações de terceiros que vazaram nas primeiras horas:
- Box (Yashodha Bhavnani, Head of AI): 56% menos chamadas de modelo e 50% menos chamadas de ferramenta em comparação com o 4.6. Ganho de eficiência, não só qualidade.
- UK AI Security Institute: testou o Mythos Preview (modelo interno da Anthropic, não liberado publicamente) em "The Last Ones", simulação de ataque de rede em 32 passos. O Mythos completou 3 de 10 tentativas, com média de 22 passos. O Opus 4.6 ficou em 16.
Benchmark ainda é benchmark. Parte interessada reportando próprios testes é sempre um sinal para cruzar com evidência independente.
Novidades dentro do Claude Code
A parte que afeta o dia a dia de quem usa o CLI:
/ultrareview: novo comando que abre uma sessão dedicada de revisão de código. Três usos inclusos para assinantes Pro e Max. Acima disso, consome cotas normais.- Effort padrão subiu para
xhigh. O 4.7 pensa mais por padrão. Isso sobe a qualidade e também o uso de tokens. Para workloads sensíveis a custo, vale calibrar explicitamente. - Auto Mode ampliado para o plano Max. Antes só Team e Enterprise tinham acesso total ao modo automático de longa execução.
- Preço mantido: $5 por milhão de tokens de input, $25 de output. Nenhum long-context premium até 1M tokens de contexto.
Cherny, no Threads oficial, resumiu o que mudou: "mais agêntico, mais preciso e bem melhor em trabalho longo. Carrega contexto entre sessões e lida muito melhor com ambiguidade." Em outro post, completou que o 4.7 "parece mais inteligente" e que levou alguns dias para ele próprio aprender a trabalhar com as capacidades novas.
Breaking changes na Messages API
Se você chama o 4.7 direto pela API (e não via Claude Code ou Managed Agents), preste atenção. A Anthropic removeu três coisas que funcionavam no 4.6:
- Thinking budgets explícitos foram extintos. Passar
thinking: {"type": "enabled", "budget_tokens": N}retorna 400. O único modo thinking-on suportado agora éadaptive, e ele fica desligado por padrão: precisa pedir comthinking: {type: "adaptive"}para ativar. - Sampling parameters foram removidos. Passar
temperature,top_poutop_kcom valor não-default retorna 400. A recomendação é omitir esses campos e usar prompting para guiar comportamento. - Thinking content sai vazio por padrão. Os blocos de thinking continuam no stream, mas o campo
thinkingvem vazio a menos que você opte explicitamente comdisplay: "summarized". Se seu produto exibe raciocínio ao usuário, vai aparecer uma pausa longa antes do output começar.
E o item que quase todo mundo vai sentir no bolso: tokenizer novo. O 4.7 usa até 35% mais tokens que o 4.6 para o mesmo texto (varia por conteúdo). count_tokens vai retornar números diferentes. Ajustar max_tokens e triggers de compaction é praticamente obrigatório.
Outra novidade útil para orçamento: task budgets (beta). Em vez de um corte duro por request (max_tokens), você dá ao modelo um alvo total de tokens para um loop agêntico inteiro (thinking + tool calls + resultados + output). O modelo vê uma contagem regressiva e prioriza o trabalho para caber. Ativa com o header beta task-budgets-2026-03-13. Mínimo de 20k tokens por budget.
Mudanças de comportamento (sem quebrar nada)
Não são breaking changes, mas vão exigir revisão dos seus prompts:
- Instruction following mais literal, principalmente em efforts baixos. O modelo não generaliza sozinho de um item para outro, nem infere pedidos que você não fez.
- Tamanho de resposta se calibra pela complexidade percebida da tarefa, em vez de defaultar para uma verbosidade fixa.
- Menos tool calls por padrão, compensando com raciocínio. Subir o effort traz as tool calls de volta.
- Tom mais direto, menos "validation-forward", com menos emoji que o 4.6.
- Menos subagents spawnados por padrão. Controlável via prompt.
- Filtros em tempo real para uso cyber. Pedidos de alto risco em segurança podem ser recusados. Trabalho legítimo passa pelo Cyber Verification Program.
Se você tinha scaffolding do tipo "confira o layout do slide antes de devolver" ou forçava status intermediários, vale testar sem. A Anthropic recomenda re-baselinear.
O Mythos atrás da cortina
A admissão mais interessante veio no próprio post oficial: o Opus 4.7 não é o modelo mais capaz que a empresa tem. Existe o Claude Mythos, com foco em cibersegurança, restrito a um grupo selecionado de empresas de tech e security, dentro de um programa interno chamado Project Glasswing.
A Anthropic argumenta que os guardrails do 4.7 foram calibrados para reduzir capacidades cyber intencionalmente, enquanto aprende, em produção real, como detectar e bloquear pedidos prejudiciais. O Mythos só sai do casulo quando essa detecção estiver sólida o suficiente para um release amplo.
Traduzindo: a Anthropic está fazendo drift controlado. Libera uma versão mais "domada" para o público geral e observa o mundo tentar quebrá-la, enquanto o modelo de fronteira fica em circulação fechada. É uma forma honesta de encenar o trade-off entre capacidade e safety, que as concorrentes costumam varrer pra debaixo do tapete.
Repercussão na Comunidade
No Hacker News, o thread oficial virou mistura de entusiasmo comedido e ceticismo crônico. Os pontos que mais ressoaram:
- "Progresso não parece plateauing como alguns previram" (grandinquistor): reação comum entre quem olha os números de CursorBench e Rakuten.
- "Ah, lá vamos nós de novo" (hansmayer): cansaço com ciclo de releases incrementais.
- "11% a mais no SWE-bench Pro é o modelo resolvendo problemas mais difíceis ou 11% menos alucinação?" (jameson): a pergunta que todo benchmark ignora.
No Threads, Cherny e o time do Claude Code fizeram um push editorial pesado: posts em rajada, blog post oficial com "best practices for using Claude Opus 4.7" e um pedido explícito para dar alguns dias antes de concluir que "não melhorou". Vários usuários relataram a mesma curva: nos primeiros prompts a impressão era que o 4.7 estava menos proativo; depois de ajustar scaffolding e subir effort, a sensação virou.
No Reddit e no X, boa parte da conversa pegou carona na controvérsia do 4.6: "o 4.7 é basicamente o 4.6 sem o gargalo artificial". A Anthropic nega gargalo. O sentimento é de desconfiança estrutural, não raiva pontual, o que é um problema mais difícil de resolver que um bug.
Um dado que vale registrar: o 4.7 consome mais tokens que o 4.6 para o mesmo trabalho (thinking maior somado ao tokenizer novo). Quem paga por volume vai sentir. Quem paga por assinatura, menos.
Na Prática
Se você já tem código chamando o 4.6 via Messages API, o caminho curto de migração:
1. Trocar o modelo.
No request, mudar model para claude-opus-4-7.
2. Remover sampling parameters.
Tirar temperature, top_p, top_k. Se você dependia de temperature = 0 para determinismo, saiba que ele nunca garantiu output idêntico nem no 4.6.
3. Migrar o thinking.
Substituir o padrão antigo:
# Antes (Opus 4.6)
thinking = {"type": "enabled", "budget_tokens": 32000}
# Depois (Opus 4.7)
thinking = {"type": "adaptive"}
output_config = {"effort": "high"} # ou "xhigh" para coding
Se o produto mostra raciocínio ao usuário, adicionar display: "summarized" para a UI não travar esperando.
4. Dar folga no max_tokens.
Tokenizer novo pode usar até 35% mais tokens para o mesmo texto. Aumentar max_tokens e revisar compaction triggers.
5. Simplificar prompts antigos.
Tirar scaffolding de "confira antes de devolver" ou forçar status intermediários. O 4.7 já faz isso por padrão. Re-baselinear seus evals.
6. (Opcional) Adotar task budgets.
Para agentes que rodam loops longos, ativar o header beta task-budgets-2026-03-13 e passar um task_budget para o loop inteiro, em vez de depender só de max_tokens.
Dica: se paga por token, rodar um A/B antes de migrar em massa. O 4.7 pensa mais e o tokenizer é mais caro por texto. Ganho de qualidade pode vir com aumento real de custo, principalmente em workloads com muito output.
Para quem usa Claude Code, a atualização é automática via claude update. Ajustes de effort e uso do /ultrareview não exigem configuração extra.
O que observar nas próximas semanas
Benchmark é ponto de partida. A pergunta real: se o salto reportado no CursorBench, no Rakuten-SWE-Bench e no SWE-bench Pro vai aparecer no trabalho que já está em produção. Três sinais valem acompanhar:
- Se a controvérsia do 4.6 reaparece sob outro nome. Se os mesmos padrões de reads-per-edit baixo, early stopping e loops ressurgirem, a raiz provavelmente não está no modelo: está no harness.
- Se empresas que operam agentes por trás do Claude Code (Box, AMD, Rakuten) publicam telemetria pós-4.7. São os dados que mais pesam na discussão.
- Se o Mythos sai do casulo. A Anthropic amarrou o release amplo do modelo de fronteira ao amadurecimento das proteções. Quanto tempo leva essa transição é um proxy do quão agressivo está o panorama de uso malicioso.
Resultado Final
Em um único release:
- Opus 4.7 no ar com CursorBench 70%, Rakuten-SWE-Bench 3× melhor, XBOW 98,5% na visão
/ultrareview,xhighcomo padrão, Auto Mode no plano Max- Preço mantido em $5/$25 por milhão de tokens, contexto de 1M sem premium
- Breaking changes sérios na Messages API: thinking budgets, sampling params, thinking content por padrão
- Tokenizer novo que gasta até 35% mais tokens por texto
- Admissão pública: o Mythos existe, é mais capaz, e só chega quando os guardrails amadurecerem
Fica o dever de casa para quem usa: migrar, medir e reportar. Esse é o ciclo que pressiona o próximo release a ser honesto sobre o que melhorou de verdade.
Referências
- Introducing Claude Opus 4.7: anúncio oficial com benchmarks e mudanças.
- What's new in Claude Opus 4.7 (docs): detalhes técnicos da API, breaking changes, task budgets.
- Claude Opus 4.7 is generally available (GitHub Changelog): rollout no Copilot Pro+, Business e Enterprise.
- Anthropic releases Claude Opus 4.7, concedes it trails unreleased Mythos (Axios): análise editorial sobre o posicionamento e o Mythos.
- Anthropic Preps Opus 4.7 and Full-Stack AI Studio (Decrypt): contexto do AI Security Institute sobre o Mythos em "The Last Ones".
- Claude Code has become dumber, lazier: AMD director (The Register): cobertura da issue de Stella Laurenzo.
- Proving Claude Code's Quality Regression (lilting channel): análise técnica original com 17.871 thinking blocks.
- Claude Opus 4.7 (Hacker News thread): reações da comunidade dev.
- Boris Cherny on Threads: declaração do líder do Claude Code.