Normas que não "punem" o envelhecimento: como pensar avaliação neuropsicológica no tempo (e sem cair em armadilhas estatísticas)

Introdução

Em uma aula do KnowNeuropsychology, o neuropsicólogo Robert Heaton faz um passeio direto ao ponto (e cheio de implicações clínicas) sobre um tema que parece técnico, mas decide muita coisa na prática: normas neuropsicológicas.

A pergunta por trás de tudo é simples e perigosa: quando um paciente vai "pior" num teste, isso é doença, idade, escolaridade, contexto de vida, efeito de prática, ou só variabilidade normal? Se você já se viu encarando um laudo e pensando "ok, mas isso é real?", você está no lugar certo.

Três metas, duas dores de cabeça

A neuropsicologia costuma perseguir três metas: (1) detectar/classificar comprometimento adquirido, (2) medir mudança ao longo do tempo (melhora ou declínio) e (3) prever funcionalidade no dia a dia. Nesta aula, o foco fica nas duas primeiras — e nelas, normas são o "sistema operacional" da decisão clínica.

O problema é que, sem correções adequadas, o teste pode virar um detector de… envelhecimento e desigualdade educacional. E isso não é exatamente o objetivo (a menos que o paciente tenha vindo só para confirmar que o tempo passa).

O "golpe" das pontuações brutas: quando o normal vira "alterado"

Heaton usa exemplos do Halstead–Reitan Battery para mostrar um padrão clássico: com escores brutos, pessoas mais velhas e com menor escolaridade tendem a parecer mais "comprometidas", mesmo quando são neurologicamente saudáveis. A especificidade cai muito no grupo 60+ quando você não corrige adequadamente.

Quando você transforma em T-scores demograficamente corrigidos (média 50, DP 10), parte grande desses efeitos "some":

a idade deixa de empurrar todo mundo para baixo;
a escolaridade deixa de "inflar" vantagem como se fosse lesão ao contrário;
o que fica mais evidente é o que deveria ficar: o efeito de dano cerebral.

Pergunta para você: no seu serviço, quantos "falsos positivos" você suspeita que nascem só de usar norma/score pouco ajustado?

Normas demográficas ajudam… e às vezes ainda não bastam

Um trecho bem útil da aula é quando ele descreve normas recentes para falantes nativos de espanhol na região da fronteira EUA–México, corrigindo por idade, educação e sexo. Ao aplicar essas normas, surge um efeito robusto de comprometimento em pessoas com HIV (coerente com achados em vários lugares).

Mas o pulo do gato vem depois: eles testam outros fatores de contexto e história de vida. Alguns "somem" com a correção básica, mas outros persistem, sugerindo que nem tudo cabe em "anos de estudo":

qualidade de recursos da escola (infraestrutura) aparece como relevante;
falta de recursos básicos na infância (como água, eletricidade, comida) também pode impactar desempenho, inclusive após correções.

Ou seja: não é "a cor da pele" ou "o idioma" que explicam desempenho; são os caminhos de vida que andam junto (e que são difíceis de medir bem retrospectivamente).

Onde cortar? 1 DP abaixo é ciência, mas também é escolha

Por que tanta gente usa "1 desvio-padrão abaixo" como ponto de corte? Porque você aceita errar cerca de 15% dos casos normais (falsos positivos) para equilibrar com a sensibilidade. Heaton mostra o trade-off: se você aperta para "2 DP", ganha especificidade, mas perde muita sensibilidade.

Ele propõe critérios práticos para pensar corte:

especificidade "decente" (ex.: >80%);
falsos positivos e falsos negativos são ruins — tente equilibrar;
o "melhor" ponto depende do contexto (clínico vs forense; demência moderada vs queixa sutil).

Dica que vale ouro: defina o corte pensando na decisão que ele vai sustentar — e na consequência do erro.

A armadilha da bateria grande: quase ninguém é "perfeitamente normal"

Quando você aplica muitos testes, a matemática faz bullying com você. No conjunto de dados citado, apenas uma minoria dos saudáveis teve "zero escores anormais". Em média, pessoas totalmente normais podem ter algo como ~10% dos testes abaixo do esperado (no nível de 1 DP), só por variabilidade.

Se você interpreta cada "queda" isolada como patologia, vai diagnosticar metade da humanidade. (E a outra metade está só tendo um dia ruim.)

Global Deficit Score (GDS)

A resposta proposta: você transforma T-scores em categorias de déficit (0 para normal; 1 para leve; 2… etc.) e resume o perfil. Isso reduz o ruído de múltiplas comparações e tende a melhorar acurácia, inclusive em populações neurológicas diversas e em pesquisas com HIV.

Mudança ao longo do tempo: a norma "de verdade" é a do reteste

A segunda metade da aula entra no que muita gente quer (e pouca gente tem): normas para mudança. Aqui, a pergunta é: o quanto mudou é "real" ou é só:

efeito de prática (ficar melhor por repetir),
regressão à média,
confiabilidade do teste,
nível basal do sujeito,
intervalo entre avaliações,
demografia.

O modelo apresentado usa regressões para prever o escore de seguimento com base em variáveis do baseline e do contexto. Depois, você calcula um z de mudança (observado – previsto / DP do resíduo). Assim, você mede mudança com uma régua que já "espera" o que é normal esperar.

Aplicando isso em uma grande coorte longitudinal com HIV, eles observam proporções de declínio, estabilidade e melhora, e relacionam pior mudança com indicadores como replicação viral persistente e outros fatores clínicos/comórbidos.

Se você trabalha com acompanhamento, fica a provocação: você está comparando seu paciente com a população… ou com ele mesmo do jeito certo?

Raça, experiência vivida e o caso NFL: quando a melhor norma é o próprio baseline

Na discussão com a moderadora Emily Duggan, aparece um ponto sensível: diferenças entre grupos raciais/étnicos em normas. Heaton reforça a ideia de que o que importa não é "raça" como biologia, mas variáveis difíceis de capturar (acesso a saúde, nutrição, qualidade escolar, oportunidades). E que, para normatizar, você precisa medir as mesmas coisas em todos e testar se elas explicam variância.

A conversa passa também por atletas e o contexto da National Football League: ele comenta a vantagem de ter testagem prévia (baseline) e usar o próprio sujeito como referência para mudança — algo especialmente poderoso quando a preocupação é concussão e declínio ao longo dos anos.

Em bom português: se você tem baseline, use baseline. É a comparação mais justa que existe.

Região e "validade com prazo de validade": quando atualizar normas?

No fim, surge a pergunta sobre efeitos regionais e a frequência ideal de atualização de normas. A resposta é honesta: isso é empírico, provavelmente existe em algumas populações, e o gargalo costuma ser financiamento para estudos normativos robustos.

Para a prática, a mensagem é: não trate norma como eterna. Ela é uma fotografia — ótima, mas datada.

Conclusão

A aula de Heaton deixa um recado claro: decisões neuropsicológicas boas dependem de normas boas — e de usar a norma certa para a pergunta certa. Para diagnóstico cross-sectional, correções demográficas aumentam especificidade e reduzem "pseudodeclínios" de idade/escolaridade. Para baterias grandes, você precisa respeitar a variabilidade normal (e o GDS ajuda). Para acompanhamento, o jogo muda: regressões de mudança e comparações intraindividuais costumam ser o caminho mais limpo.

Se você quiser transformar isso em ação amanhã:

revise seus pontos de corte (e o custo do erro);
monitore quantos "alterados" aparecem só por múltiplos testes;
e, quando possível, priorize desenhos e instrumentos que permitam medir mudança de verdade, não só diferença de escore.

Baseado na transcrição da aula do KnowNeuropsychology com Robert Heaton.