Introdução
Em uma aula do KnowNeuropsychology, o neuropsicólogo Robert Heaton faz um passeio direto ao ponto (e cheio de implicações clínicas) sobre um tema que parece técnico, mas decide muita coisa na prática: normas neuropsicológicas.
A pergunta por trás de tudo é simples e perigosa: quando um paciente vai "pior" num teste, isso é doença, idade, escolaridade, contexto de vida, efeito de prática, ou só variabilidade normal? Se você já se viu encarando um laudo e pensando "ok, mas isso é real?", você está no lugar certo.
Três metas, duas dores de cabeça
A neuropsicologia costuma perseguir três metas: (1) detectar/classificar comprometimento adquirido, (2) medir mudança ao longo do tempo (melhora ou declínio) e (3) prever funcionalidade no dia a dia. Nesta aula, o foco fica nas duas primeiras — e nelas, normas são o "sistema operacional" da decisão clínica.
O problema é que, sem correções adequadas, o teste pode virar um detector de… envelhecimento e desigualdade educacional. E isso não é exatamente o objetivo (a menos que o paciente tenha vindo só para confirmar que o tempo passa).
O "golpe" das pontuações brutas: quando o normal vira "alterado"
Heaton usa exemplos do Halstead–Reitan Battery para mostrar um padrão clássico: com escores brutos, pessoas mais velhas e com menor escolaridade tendem a parecer mais "comprometidas", mesmo quando são neurologicamente saudáveis. A especificidade cai muito no grupo 60+ quando você não corrige adequadamente.
Quando você transforma em T-scores demograficamente corrigidos (média 50, DP 10), parte grande desses efeitos "some":
- a idade deixa de empurrar todo mundo para baixo;
- a escolaridade deixa de "inflar" vantagem como se fosse lesão ao contrário;
- o que fica mais evidente é o que deveria ficar: o efeito de dano cerebral.
Pergunta para você: no seu serviço, quantos "falsos positivos" você suspeita que nascem só de usar norma/score pouco ajustado?
Normas demográficas ajudam… e às vezes ainda não bastam
Um trecho bem útil da aula é quando ele descreve normas recentes para falantes nativos de espanhol na região da fronteira EUA–México, corrigindo por idade, educação e sexo. Ao aplicar essas normas, surge um efeito robusto de comprometimento em pessoas com HIV (coerente com achados em vários lugares).
Mas o pulo do gato vem depois: eles testam outros fatores de contexto e história de vida. Alguns "somem" com a correção básica, mas outros persistem, sugerindo que nem tudo cabe em "anos de estudo":
- qualidade de recursos da escola (infraestrutura) aparece como relevante;
- falta de recursos básicos na infância (como água, eletricidade, comida) também pode impactar desempenho, inclusive após correções.
Ou seja: não é "a cor da pele" ou "o idioma" que explicam desempenho; são os caminhos de vida que andam junto (e que são difíceis de medir bem retrospectivamente).
Onde cortar? 1 DP abaixo é ciência, mas também é escolha
Por que tanta gente usa "1 desvio-padrão abaixo" como ponto de corte? Porque você aceita errar cerca de 15% dos casos normais (falsos positivos) para equilibrar com a sensibilidade. Heaton mostra o trade-off: se você aperta para "2 DP", ganha especificidade, mas perde muita sensibilidade.
Ele propõe critérios práticos para pensar corte:
- especificidade "decente" (ex.: >80%);
- falsos positivos e falsos negativos são ruins — tente equilibrar;
- o "melhor" ponto depende do contexto (clínico vs forense; demência moderada vs queixa sutil).
Dica que vale ouro: defina o corte pensando na decisão que ele vai sustentar — e na consequência do erro.
A armadilha da bateria grande: quase ninguém é "perfeitamente normal"
Quando você aplica muitos testes, a matemática faz bullying com você. No conjunto de dados citado, apenas uma minoria dos saudáveis teve "zero escores anormais". Em média, pessoas totalmente normais podem ter algo como ~10% dos testes abaixo do esperado (no nível de 1 DP), só por variabilidade.
Se você interpreta cada "queda" isolada como patologia, vai diagnosticar metade da humanidade. (E a outra metade está só tendo um dia ruim.)
Global Deficit Score (GDS)
A resposta proposta: você transforma T-scores em categorias de déficit (0 para normal; 1 para leve; 2… etc.) e resume o perfil. Isso reduz o ruído de múltiplas comparações e tende a melhorar acurácia, inclusive em populações neurológicas diversas e em pesquisas com HIV.
Mudança ao longo do tempo: a norma "de verdade" é a do reteste
A segunda metade da aula entra no que muita gente quer (e pouca gente tem): normas para mudança. Aqui, a pergunta é: o quanto mudou é "real" ou é só:
- efeito de prática (ficar melhor por repetir),
- regressão à média,
- confiabilidade do teste,
- nível basal do sujeito,
- intervalo entre avaliações,
- demografia.
O modelo apresentado usa regressões para prever o escore de seguimento com base em variáveis do baseline e do contexto. Depois, você calcula um z de mudança (observado – previsto / DP do resíduo). Assim, você mede mudança com uma régua que já "espera" o que é normal esperar.
Aplicando isso em uma grande coorte longitudinal com HIV, eles observam proporções de declínio, estabilidade e melhora, e relacionam pior mudança com indicadores como replicação viral persistente e outros fatores clínicos/comórbidos.
Se você trabalha com acompanhamento, fica a provocação: você está comparando seu paciente com a população… ou com ele mesmo do jeito certo?
Raça, experiência vivida e o caso NFL: quando a melhor norma é o próprio baseline
Na discussão com a moderadora Emily Duggan, aparece um ponto sensível: diferenças entre grupos raciais/étnicos em normas. Heaton reforça a ideia de que o que importa não é "raça" como biologia, mas variáveis difíceis de capturar (acesso a saúde, nutrição, qualidade escolar, oportunidades). E que, para normatizar, você precisa medir as mesmas coisas em todos e testar se elas explicam variância.
A conversa passa também por atletas e o contexto da National Football League: ele comenta a vantagem de ter testagem prévia (baseline) e usar o próprio sujeito como referência para mudança — algo especialmente poderoso quando a preocupação é concussão e declínio ao longo dos anos.
Em bom português: se você tem baseline, use baseline. É a comparação mais justa que existe.
Região e "validade com prazo de validade": quando atualizar normas?
No fim, surge a pergunta sobre efeitos regionais e a frequência ideal de atualização de normas. A resposta é honesta: isso é empírico, provavelmente existe em algumas populações, e o gargalo costuma ser financiamento para estudos normativos robustos.
Para a prática, a mensagem é: não trate norma como eterna. Ela é uma fotografia — ótima, mas datada.
Conclusão
A aula de Heaton deixa um recado claro: decisões neuropsicológicas boas dependem de normas boas — e de usar a norma certa para a pergunta certa. Para diagnóstico cross-sectional, correções demográficas aumentam especificidade e reduzem "pseudodeclínios" de idade/escolaridade. Para baterias grandes, você precisa respeitar a variabilidade normal (e o GDS ajuda). Para acompanhamento, o jogo muda: regressões de mudança e comparações intraindividuais costumam ser o caminho mais limpo.
Se você quiser transformar isso em ação amanhã:
- revise seus pontos de corte (e o custo do erro);
- monitore quantos "alterados" aparecem só por múltiplos testes;
- e, quando possível, priorize desenhos e instrumentos que permitam medir mudança de verdade, não só diferença de escore.
Baseado na transcrição da aula do KnowNeuropsychology com Robert Heaton.