Como saber se o paciente piorou, melhorou ou ficou estável? Um guia prático para medir mudança cognitiva no "mundo real"

Introdução

Em neuropsicologia, a pergunta parece simples, mas costuma dar dor de cabeça: "essa pessoa realmente mudou… ou foi só variação do teste, do dia, do humor e do cafezinho?".

Na aula de KnowNeuropsychology (Volume 2), Kevin Duff mostra como pensar a mudança cognitiva no indivíduo (não só em médias de grupo) e por que isso impacta diagnóstico, prognóstico, intervenção e até casos forenses. O tema é técnico, mas a lógica é muito "pé no chão": se você mede duas vezes, você precisa de um jeito confiável de dizer se aquilo foi mudança de verdade.

Por que "mudança" importa tanto (e aparece em todo lugar)

Avaliar mudança cognitiva não serve só para demências. Serve para praticamente qualquer cenário em que você olha "antes e depois", por exemplo:

progressão natural de condições (p. ex., comprometimento cognitivo leve evoluindo ou não)
recuperação após insulto (TCE, AVC, quimioterapia)
resposta a intervenção (medicação, reabilitação cognitiva, psicoterapia)
contexto forense (avaliações repetidas, divergência entre peritos)

A mensagem é: se você não tem um método para mudança, você corre o risco de interpretar "barulho" como "sinal".

Mudança não é linha reta (e isso complica tudo)

Na teoria, seria lindo: estável, melhora ou declínio. Só que na prática, as pessoas podem:

melhorar e depois cair
cair e depois estabilizar
oscilar por fatores externos (sono, dor, ansiedade, intercorrências)

Essas curvas mais "humanas" são difíceis de capturar com métodos pensados para padrões lineares. O primeiro passo é reconhecer isso para não virar refém de uma diferença bruta entre dois números.

O inimigo silencioso: erro (ele dobra quando você testa duas vezes)

Um escore tem "habilidade verdadeira" + "erro". Quando você repete a avaliação, o erro não só continua — ele se soma (tempo 1, tempo 2 e o que aconteceu entre eles).

Principais fontes de erro que bagunçam a comparação:

variáveis do teste: confiabilidade baixa aumenta incerteza
variáveis situacionais: intervalo reteste, interrupções, contexto diferente
regressão à média: escores extremos tendem a "voltar" para mais perto do centro
diferenças individuais: idade, escolaridade, fadiga, diagnóstico, familiaridade com o material

Tradução clínica: duas pontuações diferentes não significam automaticamente "mudou".

Confiabilidade alta não é passe livre

Um ponto que derruba muita intuição: teste com correlação test–retest alta pode continuar mostrando "alta confiabilidade" mesmo quando todo mundo melhora um pouco (ou piora bastante), desde que o "ranking" das pessoas não mude.

Ou seja: confiabilidade diz muito sobre posição relativa, mas não garante que você está medindo mudança com precisão.

E os famosos "efeitos de prática"? Nuisance… ou informação valiosa?

Efeito de prática é aquela melhora por já ter feito o teste (mesmo sem intervenção). Pode ser por:

memória declarativa (lembrar itens, estratégias)
memória procedimental ("pegar o jeito" do teste)

O que o Kevin Duff enfatiza: é mito achar que efeito de prática "some" depois de 6 meses, ou que não acontece em idosos, crianças ou populações clínicas. Acontece — e se você não corrige, você confunde "aprendeu o teste" com "melhorou cognitivamente".

Os dois métodos que realmente resolvem a vida (na prática clínica)

Entre várias abordagens estatísticas, a aula foca no que costuma ser mais útil para avaliar um paciente individual:

1) RCI com correção para efeito de prática (RCI+PE)

É o método "diferença simples": compara tempo 2 – tempo 1, corrige pelo efeito de prática esperado e divide pelo erro associado à diferença.

Vantagens

gera um número interpretável (z-score)
corrige prática e inclui confiabilidade
dá para calcular com dados de manual/artigos

Limitação importante

Tende a ser "tamanho único": aplica a mesma correção independentemente do nível inicial do paciente, o que pode ser injusto em alguns casos.

2) SRB (Standardized Regression-Based change)

Aqui a lógica é "diferença prevista": você prediz qual deveria ser o escore do tempo 2 (considerando escore inicial, prática, regressão à média e confiabilidade) e compara com o escore real.

Vantagens

também dá z-score
ajusta melhor por escore basal e regressão à média
pode incluir idade, escolaridade e intervalo (SRB "complexo")

Por que muita gente gosta mais do SRB

Porque ele costuma ser mais sensível e mais "personalizado" do que o RCI+PE.

Ok, mas… quando a mudança é "significativa" de verdade?

A regra prática usada com frequência é o corte: ± 1,645 no z-score.

z ≤ -1,645 → declínio confiável (abaixo de ~5%)
z ≥ +1,645 → melhora confiável (acima de ~95%)
entre isso → tendência a "estável"

E aqui entra a parte adulta da conversa: se seus dados de comparação (normas, reteste, amostra) não casam perfeitamente com seu paciente, vale interpretar com um pouco mais de flexibilidade.

Como usar isso além do laudo: pesquisa, decisões e prognóstico

Uma ideia bem prática é "tricotomizar" os pacientes (declínio / estável / melhora) e:

comparar grupos (ex.: tratamento vs controle)
correlacionar mudança com idade, escolaridade, sexo etc.
e — o mais importante — linkar mudança com desfechos que importam: funcionalidade, retorno ao trabalho, dirigir, adesão, resposta a intervenção, biomarcadores.

O recado é quase uma provocação: calcular z-score é legal, mas o ouro é saber o que ele prediz.

A virada interessante: efeitos de prática como "sinal" (não só barulho)

Na segunda metade, ele mostra um uso bem inteligente: mudança de curtíssimo prazo (ex.: 1 semana) como variável prognóstica em comprometimento cognitivo leve.

Em estudos citados na aula, pacientes com maiores efeitos de prática tenderam a ficar mais estáveis ao longo do tempo; aqueles com efeitos de prática menores que o esperado tenderam a declinar mais.

Em outras palavras: às vezes, "não melhorar quando deveria" após repetição do teste pode ser um alerta precoce.

O caso clínico do início: afinal, ela piorou?

A paciente (76 anos, escolaridade de 10 anos) foi avaliada em três pontos anuais com um instrumento de triagem neuropsicológica. Olhando só os escores, parece que há piora gradual e depois piora mais marcada.

Aplicando SRBs, o resultado fica mais "limpo":

Tempo 1 → Tempo 2: sem mudança confiável nos índices (o mais próximo foi memória tardia, mas ainda "estável")
Tempo 2 → Tempo 3: declínio confiável em memória tardia
Tempo 1 → Tempo 3: declínio confiável em memória tardia e também em linguagem; total quase no corte

Moral da história: o método evita que você "se assuste" cedo demais — e também evita que você normalize tarde demais.

Ferramentas e atalhos (porque ninguém merece fazer isso no braço toda vez)

A aula menciona alternativas para calcular mudança com mais praticidade, incluindo planilhas e calculadoras online desenvolvidas por pesquisadores como Brandon Gavett e John Crawford. A ideia é simples: você insere médias, desvios, confiabilidade e escores do paciente, e a ferramenta cospe o z-score.

Conclusão

Determinar mudança cognitiva no indivíduo não é "diferença de pontuação", é diferença com contexto estatístico.

Entre os métodos mais úteis na clínica, o RCI com correção de prática e, sobretudo, o SRB ajudam a responder a pergunta que realmente importa: "isso é mudança confiável ou só ruído?".

E a cereja do bolo é perceber que efeitos de prática, quando bem analisados, podem virar uma janela para prognóstico e até para resposta a tratamento — aquele tipo de variável que parecia incômoda… até você perceber que ela estava tentando te contar uma história.

Pergunta para levar pra equipe (ou pra sua próxima supervisão): Nos seus acompanhamentos, você está medindo "mudança do cérebro"… ou "mudança do teste"?

Baseado na transcrição da aula do KnowNeuropsychology (Volume 2).