MÓDULO 2.4 · WALKTHROUGH · ~50 min

🎬 Das 247 respostas bagunçadas ao Artifact que virou o ritual do time

Pedro, head de produto numa edtech B2B, sai de uma sexta tensa com 247 respostas de NPS em texto livre e o CEO querendo "insights na segunda 9h". Você acompanha as 5 iterações até ele entregar não um relatório, mas uma ferramenta interativa que o time inteiro passa a usar.

⚠ Atenção: esse walkthrough mostra um movimento que separa N2 de N1: parar de gerar relatórios estáticos e começar a entregar artefatos vivos. Quem domina isso entrega 5x o valor com a mesma sessão.

⚙

Setup — sexta-feira, 17h22

Quem: Pedro, 36, head de produto numa edtech B2B que vende sistema de gestão escolar (250 clientes, ticket médio R$ 2.4k/mês). Já está no N2 — tem Projeto "Edtech NPS" configurado, com conector Drive.

O que aconteceu: NPS trimestral fechou ontem. 247 respostas, das quais 189 com texto livre. Promotores 31%, Detratores 24%, Neutros 45% — NPS = 7. Caiu 6 pontos vs trimestre anterior.

A pressão: CEO mandou Slack 16h:

"Pedro, NPS caiu 6 pontos. Segunda 9h tem all-hands. Preciso que toda liderança entre nessa reunião sabendo: (a) o que está doendo no produto, (b) onde está concentrado, (c) o que dá pra mexer em 30 dias. Não me manda relatório de 40 slides."

Stakes: Pedro tem fim de semana inteiro (e quer aproveitar com a família). Cada hora hoje à noite vale duas hoje no domingo. CEO pede insight acionável, não dashboard bonito.

Tentativa 0 — o reflexo de PM ansioso (17h28)

Pedro abre o Projeto, cola o CSV (189 respostas em texto livre), digita:

PEDRO →

Analise essas respostas de NPS e me dá insights pro CEO. Foca no que tá ruim.

Claude devolve:

← CLAUDE

Após análise, identifiquei alguns temas principais nas respostas: 1. **Performance:** muitos usuários mencionaram lentidão 2. **Suporte:** alguns clientes expressaram insatisfação com o atendimento 3. **Funcionalidades:** há solicitações por novas features 4. **Onboarding:** clientes novos relataram dificuldade inicial Recomendo investigar essas áreas com mais profundidade.

😬 Pedro respira fundo

Isso é exatamente o tipo de "insight" que o CEO odeia. "Muitos", "alguns", "há solicitações" — vaguidade total. Sem número. Sem cliente. Sem nada acionável.

Por que falhou (e por que TODO N2 mediano para aqui): Pedro pediu "análise" sem definir CATEGORIAS, sem CONTAGEM, sem CITAÇÃO real, sem SEGMENTAÇÃO. Claude defaultou pra resumo executivo genérico — exatamente o que CEO pediu pra NÃO mandar.

Iteração 1 — forçando estrutura (17h41)

Pedro pensa: "preciso forçar Claude a ser específico". Reescreve:

PEDRO →

Vamos de novo. Pra cada uma das 189 respostas com texto livre: 1. Categorize em UMA de 6 categorias: Performance, Bugs, Falta de feature, Suporte, Onboarding, UX confusa 2. Identifique sentimento (Promotor, Neutro, Detrator) — já tá na coluna B 3. Marque o segmento (já tá na coluna C: pequena/média/grande escola) 4. Extraia 1 citação curta (15 palavras max) por resposta Saída: tabela markdown com as 6 categorias, contagem por sentimento, contagem por segmento, e 3 citações representativas por categoria.

← CLAUDE

[tabela com 6 categorias] **Performance:** 47 menções (32 Detratores, 12 Neutros, 3 Promotores) - Por segmento: 28 grande, 14 média, 5 pequena - Citações: - "trava direto na hora do fechamento mensal" - "demora 8 segundos pra carregar relatório de notas" - "lentidão piorou de 6 meses pra cá" **Bugs:** 34 menções... [continua]

🟡 Bem melhor — mas Pedro estranha um número

Pedro lê e tem o alerta certo: "32 detratores em Performance? Isso é metade dos detratores totais. Será que isso bate com os dados de uptime do mês?" Ele abre o monitoring e... uptime está em 99.94%, sem degradação.

Algo está estranho. Pedro lê 5 das citações originais (não as 15-palavras-resumo, as respostas inteiras). Descobre: 18 das 47 "menções de performance" são na verdade reclamações sobre processamento de boleto bancário (terceirizado, fora do controle direto da edtech). Não é o produto travando.

Claude misturou categorias. "Sistema lento na hora do boleto" entrou em Performance — mas a causa é financeira/integração, não infra.

Iteração 2 — ancorar em citação literal (18h05)

Pedro percebe que Claude está "interpretando" demais. Ele força o output a citar trecho LITERAL e mostrar raciocínio:

PEDRO →

Refaz com 2 regras novas: 1. Pra cada resposta, ANTES de categorizar, transcreva LITERALMENTE o trecho da resposta original (sem parafrasear) que justifica a categoria. Mantenha aspas duplas. 2. Crie nova categoria "Integração/Boleto" — clientes reclamando de processamento financeiro entram aqui, não em Performance. 3. Se a resposta cobre 2 temas, divida em 2 entradas separadas (mesmo cliente, 2 linhas). 4. Importantíssimo: se você não tem certeza da categoria, marque como [?] e me liste pra eu decidir. Saída: CSV completo (id, texto literal citado, categoria, sentimento, segmento, observação). Sem agregação por enquanto — quero ver as 189+ linhas brutas pra eu auditar.

← CLAUDE

Processado. 214 entradas (algumas respostas geraram 2 linhas por cobrir múltiplos temas). Resumo da auditoria: - 8 respostas marcadas com [?] — precisam sua decisão - "Integração/Boleto" emergiu como categoria com 21 menções (separada de Performance) - Performance agora tem 29 menções legítimas (vs 47 antes) Os 8 casos [?]: 1. Cliente #142: "está bom mas poderia melhorar". Categoria provável: ? — muito genérico, não dá pra mapear. Ignorar? 2. Cliente #178: "vocês são piores que a empresa Y". Categoria: Comparação com concorrente. Criar nova categoria? 3. ... [mais 6] Quer que eu já gere as agregações com o que está claro, ou aguardo sua decisão sobre os 8?

✅ Aha moment

Pedro lê e percebe que Claude agora é parceiro de análise, não buscador de padrão. As 3 mudanças que destravaram:

1. Citação literal antes de categoria — força Claude a se ancorar no texto, não inventar agrupamento.
2. Múltiplas linhas por resposta — clientes não falam de 1 tema só; obrigar 1-tema-por-resposta perde sinal.
3. "Marque [?] e me liste" — Claude para de chutar e devolve casos ambíguos pra decisão humana.

Pedro decide os 8 casos em 3 minutos. "Comparação com concorrente" vira nova categoria com 6 menções. 18h45 ele tem CSV limpo com 220 entradas categorizadas e auditáveis.

Iteração 3 — gerando o relatório (19h12)

Pedro pede agora o relatório executivo, com as 3 perguntas do CEO como estrutura obrigatória:

PEDRO →

Agora gera relatório executivo respondendo as 3 perguntas do CEO: (a) O QUE está doendo no produto? Top 5 categorias por impacto (peso = menções × % detrator) (b) ONDE está concentrado? Cruzamento categoria × segmento. Aponte onde 1 segmento sofre 2x mais que os outros. (c) O QUE dá pra mexer em 30 dias? Pra cada das 5 top categorias, sugira UMA ação concreta com: o que fazer, quem é dono provável, esforço (P/M/G), risco. NÃO sugira ação pra categoria que não tem controle interno (boleto terceirizado, comparação com concorrente). Formato: - 1 página, máx 600 palavras - Cada afirmação ancorada em número ou citação - Frase final: "se eu tivesse 1 mês e 1 time de 3 pessoas, atacaria PRIMEIRO X porque Y" Não invente. Use só os 220 entradas categorizadas.

← CLAUDE

# NPS Q1/2026 — onde dói, onde concentra, o que mexer ## (a) Top 5 dores 1. **Bugs no fechamento mensal** — 38 menções (89% detrator). Peso: 33,8. Cliente #44: "trava direto na hora do fechamento, perdemos 2h refazendo". 2. **Integração/Boleto** — 21 menções (76% detrator). Peso: 16. Causa externa (gateway), mas afeta percepção do produto. 3. **Onboarding confuso** — 19 menções (53% detrator, 32% neutro). Peso: 10,1. Concentrado em clientes < 6 meses de casa. 4. **Falta relatório de presença automático** — 17 menções (35% detrator, 53% neutro, escala curiosa: 12% promotor pediu "se tivesse, indicaria"). Peso: 6. 5. **Performance real** — 9 menções legítimas (após reclassificar boletos). Peso: 4,5. Não é problema sistêmico. ## (b) Concentração - Escolas **grandes** (50+ funcionários) sofrem 2,3x mais com Bugs no fechamento. Hipótese: volume de dados estressa lógica de batch atual. - Escolas **pequenas** (até 10 func.) lideram Onboarding confuso (61% das menções da categoria). Hipótese: setup feito sem CSM dedicado. - Médias estão silenciosamente OK em quase tudo. ## (c) Ações 30 dias | # | Ação | Dono provável | Esforço | Risco | |---|---|---|---|---| | 1 | Refatorar batch do fechamento (lote 500 → lote 50, async) | Tech Lead Backend | M | Médio — testes em staging primeiro | | 2 | Pra os 21 de boleto: comunicação proativa + plano B com gateway alt | Ops + Financeiro | P | Baixo — não envolve dev | | 3 | Onboarding guiado pras pequenas: vídeo curto + checklist + 1 call 30min | CS | P | Baixo | | 4 | Relatório de presença automático: scoping em 2 semanas, decidir build/buy | PM (eu) + Tech | M | Médio — escopo creep | (Comparação com concorrente: 6 menções, sem ação direta. Cobrir em conteúdo de marketing/CS.) ## Se eu tivesse 1 mês + 3 pessoas Atacaria **Bugs no fechamento (ação #1) PRIMEIRO** porque: 1. Concentra 38 menções com altíssima taxa de detrator (89%) 2. Afeta escolas grandes — segmento de maior LTV 3. Causa raiz é controlável internamente (não é fornecedor) 4. Resolver isso destrava 15 pontos de NPS na próxima medição (estimativa)

Pedro lê e sente que tem o que CEO precisa. Mas vem a iteração que muda o jogo.

Iteração 4 — o salto que faz o N2 valer (19h48)

Pedro está pra fechar o laptop. Mas pensa: "Esse relatório vai virar 40 slides na reunião. Diretor de Customer Success vai querer ver as citações de pequenas. Tech Lead vai querer drillar nos bugs. Cada liderança vai precisar de um corte diferente. Se eu mandar PDF, vai voltar 8 perguntas no domingo."

Em vez de PDF, ele pede ARTIFACT:

PEDRO →

Plot twist. Em vez do relatório virar PDF, gera um Artifact interativo no painel lateral: - Dashboard simples (1 página, sem login) - Topo: 3 KPIs grandes (NPS atual, variação vs trimestre passado, total respostas) - Centro: tabela das 220 entradas com colunas (id, citação literal, categoria, sentimento, segmento) - Filtros laterais: categoria, sentimento, segmento — clicáveis e combinabis - Embaixo: 2 mini-gráficos que atualizam com filtros (categoria × sentimento; categoria × segmento) - Header com timestamp da última análise Tom visual: sóbrio, escala de cinzas + 1 cor de destaque (azul). Não é apresentação, é ferramenta. Os dados são os 220 que você gerou na iteração 2. Embute eles no Artifact (não preciso de backend). Quando estiver pronto, publica e me dá o link.

← CLAUDE

Artifact criado: "NPS Q1/2026 — Explorador Interativo" Features implementadas: ✓ 3 KPIs no topo (NPS: 7, Δ: -6, n: 247) ✓ Tabela com as 220 entradas categorizadas ✓ Filtros: 7 categorias, 3 sentimentos, 3 segmentos (multi-select) ✓ Gráficos atualizam ao filtrar (Recharts) ✓ Search no texto da citação ✓ Export pra CSV ao final dos filtros aplicados Publiquei. Link público: [URL gerada pelo Claude] Storage persistente ativado — dados ficam, ninguém precisa rerodar. Posso adicionar mais alguma coisa antes de você mandar?

19h54. Pedro abre o link. Funciona. Tabela com 220 linhas, filtros funcionando, gráficos atualizando. Não é simulação — é ferramenta real, com URL pública, que ele pode mandar pro time.

✓

Sábado 9h12 — o time já começou a usar

Pedro manda no Slack #produto-liderança:

"Liderança — antes da all-hands de segunda, deixei o explorador do NPS Q1 aqui: [link]. Filtre por sua área antes da reunião. Tem 220 citações ancoradas no texto original; usem pra defender ou desafiar minhas conclusões. Resumo executivo em PDF separado, pra quem quiser só o tldr."

Sábado 11h — primeiras reações chegam:

• Carla (CS): filtrou "pequenas + detrator". Achou padrão extra: 9 das 11 vinham de clientes que tinham apenas 1 funcionário usando. "Olha esse drill — pode ser problema de adoção interna, não de produto. Vamos cobrir na call de segunda?"
• Ricardo (Tech Lead): filtrou "Bugs no fechamento". Encontrou 3 menções que descrevem o MESMO erro específico de timeout. "Pedro, isso é o ticket #4419 que o time tinha priorizado pra Q2. Vou subir pra Q1."
• Diego (Founder): "Excelente trabalho. Segunda já entramos com pauta clara. Quero que esse explorador vire ritual trimestral."

Pedro fechou o laptop sábado 9h30. Família, almoço, parque. Domingo intocado. Segunda 9h, all-hands rodou em 28 minutos (era pra ser 90), saiu com 4 ações e donos definidos.

★

Lições da jornada

1. "Análise" sem categorias = vaguidade

Iteração 0 falhou porque pedir "análise" deixa Claude no nível "muitos clientes citaram performance". Forçar categorias explícitas + contagem + segmentação destrava raciocínio quantitativo real.

2. Citação literal > paráfrase

O erro do "Performance ≠ Boleto" só apareceu porque Pedro pediu citação literal. Quando Claude parafraseia, ele interpreta — e interpretação errada vira categoria errada vira insight errado.

3. Permissão pra [?] = Claude vira parceiro

"Se não tem certeza, marque [?] e me liste" transformou Claude de "vou chutar pra parecer útil" em "vou separar o que é certo do que é ambíguo". 3 minutos de Pedro decidiu 8 casos. Vale ouro.

4. PDF é o output errado quando o time precisa drillar

O movimento N2 que separa Pedro da maioria foi: trocar "gera relatório" por "gera artifact interativo". PDF morre na pasta; ferramenta vira ritual. CEO falou sobre "isso vira ritual trimestral" — não pediu, percebeu.

5. O Projeto pré-configurado fez TUDO ser mais rápido

Pedro não começou do zero. Já tinha Projeto "Edtech NPS" com instrução + conector Drive. Por isso 2h30 cobriu da bagunça ao artifact publicado. Sem o Projeto pronto, isso vira 5-6h.

⚙

Adapte o walkthrough pro seu mundo

A jornada do Pedro foi análise de NPS + artifact. Mas o movimento serve pra qualquer pilha de texto/dados que precisa virar exploração compartilhada:

📞 Calls de venda transcritas → explorador de objeções

Categorize objeções, ancore em citação literal, artifact filtrável por etapa do funil. Time inteiro vê padrões.

🐛 Tickets de bug → priorização interativa

Categoria + severidade + módulo + cliente. Artifact com filtros = PM e Tech decidem juntos sem reunião.

📋 Pesquisa de mercado → tabela de competidores filtrável

100 produtos analisados, cada um com features, preço, segmento. Time comercial filtra pela situação do lead.

📚 Currículos/portfolios → triagem de recrutamento

200 currículos, categoria (skill, senioridade, expectativa salarial), filtros pra hiring manager.

📊

Métricas reais

2h30

tempo total
(versus ~14h fazendo manual)

iterações até
artifact publicado

28 min

all-hands
(era pra ser 90min)

1 ritual

trimestral
nascido do artifact

Tudo dentro de 1 Projeto. Conectores ativados. Artifact com storage persistente publicado em link. N2 entregando valor de consultor sênior.

🎓 Resumo do Módulo

✓

"Análise" sem categorias é vaguidade — force enumeração, contagem, segmentação.

✓

Citação literal > paráfrase — interpretação de Claude pode misturar coisas (boleto ≠ performance).

✓

Permissão pra [?] — Claude separa o claro do ambíguo em vez de chutar.

✓

Artifact > PDF quando o time precisa drillar. Ritual nasce sozinho.

✓

Projeto pré-configurado reduz tempo da próxima análise em 60-70%.

Próximo passo:

Trilha 3 — Intermediário. Co-work tira Claude do chat e bota pra rodar na sua máquina.

← Voltar para Trilha Próxima Trilha →