🛡 Operando autônomos com responsabilidade
A trava do N5 é confiança, não técnica. Esse módulo te ensina como construir confiança gradualmente — exatamente como você aprendeu a dirigir.
💰 Task budgets (Opus 4.7 beta)
Você define orçamento total de tokens pra rotina inteira — thinking, tools, output entram no cap. O modelo vê o budget e se auto-regula, encerrando graciosamente quando vê que vai estourar.
É o lever mais subestimado pra controle de custo em autônomos. Sem ele, agente "viaja" e queima conta. Atualmente API only — mas chegará a Code e co-work.
👥 Agent teams (experimental)
Múltiplos Claudes coordenados por agente "lead". Diferente de subagentes (N4): aqui se mensagem, têm channel compartilhado, debatem, tem task list comum.
Use quando vê que tem orçamento de tokens sobrando — agent teams gastam muito. Spin up, peça pra debaterem uma decisão, escolha o melhor argumento.
Protocolos: MCP pra tools (já vimos), Ato pra agent-to-agent (novo, padrão da Anthropic+Google de 2025).
✅ Outcomes — validação automática multi-agente
Feature 2026: você define outcome explícito (sucesso = X, Y, Z). Um agente validator checa antes da entrega chegar em você. Se falha, dispara nova iteração.
Mata o "Claude entregou mas não tá bom". Confiança constrói com PASS automático repetido.
📅 Plano 7 dias — confiança gradual
- Dia 1: escolha rotina de baixíssimo risco (resumo só pra você).
- Dia 2: defina escopo — fontes, formato, critério de sucesso.
- Dia 3: crie formato de saída ideal.
- Dia 4: adicione notificação (Slack, e-mail) com link pro output.
- Dia 5: rode manual 3-5 vezes. Refine.
- Dia 6: agende em routine, com supervisão (você revisa cada output).
- Dia 7: revise logs. Se todas as 7 execuções estavam boas, deixe rodar sozinho. Senão, mais 5 dias.
🎯 3 exemplos prontos completos
Revisão automática de PR
Trigger: GitHub event "PR aberta"
Fluxo: Claude lê diff → roda testes → analisa lógica → posta comments inline → resume no Slack #dev
Segurança: Read-only no repo. Não merge. Não comenta com tom rude. Não bloqueia ninguém.
Briefing pré-reunião
Trigger: Calendar event começa em 1h
Fluxo: Identifica participantes → busca histórico Notion/Slack → resume contexto + pendências + perguntas-chave → envia e-mail
Segurança: Só lê fontes autorizadas. Não responde e-mail por você.
Relatório semanal autônomo
Trigger: Cron sexta 17h
Fluxo: Lê GitHub (PRs/issues), Notion (decisões), Slack (#geral) → compõe markdown com 3 partes (feito, em andamento, riscos) → entrega no canal #weekly
Segurança: Não cita decisões confidenciais. Não atribui falha a pessoa específica.
📋 Checklist de segurança
- ☐ Logs estruturados — cada execução grava: input, tools usadas, output, tokens.
- ☐ Dry-run paralelo por 1 semana — rotina roda em modo "simulação" antes do real.
- ☐ Kill switch acessível — comando ou botão pra pausar.
- ☐ Alçada explícita — "até R$ X / quantidade Y, executa; acima, pede aprovação humana".
- ☐ Read-only por padrão — write apenas onde indispensável.
- ☐ Token budget — cap estrito.
- ☐ Alert de falha — qualquer erro vira mensagem pra você imediatamente.
🪜 Trust ladder: N4→N5 é psicológico
Quase todo mundo no N4 consegue construir rotina tecnicamente. Mas não habilita. A trava é confiança em sistema que roda enquanto você dorme.
Fix é igual a aprender a dirigir: estacionamento vazio primeiro. Rotina baixíssimo risco, só pra você, 10 runs perfeitas = primeira confiança. Mais 100 = segunda. Não pule.
⚖ Determinístico vs não-determinístico
Automação determinística (ETL clássico, "se X então Y") = entrada → saída fixa. Confiável.
Skills/agentes Claude = não-determinísticos. Mais poderosos, mas exigem validação. Misture os dois: ETL determinístico transporta, LLM no meio só onde julgamento criativo é necessário.
Não-determinístico sem validador = receita pra desastre. Outcomes automáticos resolvem.
📚 Resumo do Módulo
Próximo Módulo:
5.3 — O que vender e como descobrir o que já existe.