2
# O modelo aprende o sistema que produziu o dado
3
4
> Em saúde, o dado que alimenta uma IA não é matéria-prima neutra; ele carrega os protocolos, interfaces, fluxos, incentivos, ausências e atalhos do sistema que o produziu.
5
7
8
Um modelo nunca aprende apenas o dado.
9
10
Aprende também a forma como aquele dado passou a existir.
11
12
Essa diferença parece pequena, mas muda quase tudo na conversa sobre IA em saúde.
13
14
Quando dizemos que um modelo foi treinado em exames, prontuários, laudos, custos, eventos, códigos ou desfechos, a frase sugere uma matéria-prima relativamente estável. Como se o dado estivesse ali, esperando ser extraído, limpo, anotado e entregue ao algoritmo.
15
16
Mas dado clínico não nasce assim.
17
18
Ele é produzido por um sistema.
19
20
Antes de virar linha de tabela, imagem, texto, label ou variável, o dado passou por acesso, triagem, indicação, protocolo, equipamento, interface, linguagem, agenda, cobertura, incentivo, hábito documental, cultura institucional, limitação operacional e decisão humana.
21
22
Às vezes passou também por ausência.
23
24
O exame que não foi pedido.
25
26
O sintoma que não foi registrado.
27
28
O paciente que não chegou.
29
30
O campo que ficou vazio.
31
32
O laudo que disse menos do que o radiologista pensou.
33
34
O código usado porque era o mais próximo disponível.
35
36
O desfecho medido porque era o único observável.
37
38
Quando uma IA aprende sobre esse material, ela não tem acesso direto ao fenômeno clínico em estado puro. Ela acessa o fenômeno filtrado por uma cadeia de produção.
39
40
E essa cadeia deixa marcas.
41
42
## Dado clínico não é matéria-prima bruta
43
44
Há uma forma conveniente de imaginar dados em saúde.
45
46
O mundo clínico produziria fatos.
47
48
O prontuário registraria esses fatos.
49
50
O dataset organizaria esses registros.
51
52
O modelo aprenderia padrões.
53
54
A validação mediria se os padrões são bons.
55
56
Essa sequência é útil como simplificação técnica, mas ruim como descrição da realidade.
57
58
O prontuário não é uma câmera apontada para o cuidado.
59
60
O PACS não é uma janela neutra para a doença.
61
62
O laudo não é apenas a transcrição objetiva de um achado.
63
64
O código de faturamento não é sinônimo de necessidade clínica.
65
66
A falta de informação não é ausência de fenômeno.
67
68
Cada uma dessas formas de registro é uma negociação entre o que aconteceu, o que foi percebido, o que foi possível perguntar, o que foi necessário documentar, o que o sistema permitiu escrever, o que havia tempo de escrever e o que teria consequência se fosse escrito.
69
70
Por isso, em saúde, a pergunta "qual é o dado?" raramente basta.
71
72
É preciso perguntar: como esse dado foi produzido?
73
74
Quem entrou no sistema?
75
76
Quem ficou fora?
77
78
Quem foi examinado?
79
80
Quem foi acompanhado?
81
82
Quem teve acesso ao teste confirmatório?
83
84
Que protocolo estava vigente?
85
86
Que aparelho gerou a imagem?
87
88
Que formulário obrigava resposta?
89
90
Que campo era opcional?
91
92
Que equipe preenchia?
93
94
Que incentivo tornava algo visível?
95
96
Que parte do cuidado acontecia, mas não virava registro?
97
98
Um modelo treinado sem essas perguntas pode até performar bem.
99
100
O problema é que não sabemos exatamente sobre o quê.
101
102
## O atalho parece sinal
103
104
Modelos são bons em explorar regularidades.
105
106
Essa é a força deles.
107
108
Também é o risco.
109
110
Quando a regularidade clinicamente relevante está misturada a regularidades operacionais, o modelo pode aprender o caminho mais fácil.
111
112
Não porque seja mal-intencionado.
113
114
Porque otimização não tem intuição clínica.
115
116
Se uma variável de contexto ajuda a reduzir erro no dataset, ela pode virar sinal. Se o hospital, o scanner, o tipo de exame, a prioridade do pedido, o padrão de compressão, a incidência, a lateralidade do marcador, a posição do paciente ou a presença de um dispositivo estiverem correlacionados com o desfecho, o modelo pode usar isso.
117
118
O caso de radiografias de tórax para pneumonia, estudado por Zech e colaboradores, tornou esse ponto bastante concreto. O trabalho mostrou que modelos treinados em radiografias de determinados sistemas hospitalares tinham desempenho pior quando testados em outros locais, e que redes neurais conseguiam identificar o sistema hospitalar ou o departamento onde a imagem foi adquirida. A suspeita não era apenas "o modelo errou fora". Era mais incômoda: parte da performance interna podia estar apoiada em informação de procedência, não apenas em achado pulmonar.
119
120
Badgeley e colaboradores fizeram uma demonstração igualmente útil em radiografias de quadril. Um modelo treinado para predizer fratura também conseguia predizer variáveis de processo, como fabricante do scanner, modelo do equipamento e prioridade do pedido. Quando os autores balancearam variáveis de paciente e processo, a performance para fratura caiu de modo importante. A imagem carregava mais do que osso.
121
122
Durante a pandemia, DeGrave e colaboradores analisaram modelos para detecção radiográfica de COVID-19 e mostraram que sistemas aparentemente bons podiam selecionar atalhos relacionados à forma de coleta dos dados. A patologia estava no problema, mas o atalho estava no dataset.
123
124
Esses exemplos são radiológicos, mas a lição é mais ampla.
125
126
O modelo aprende o que ajuda a prever.
127
128
Não necessariamente o que gostaríamos que ele tivesse aprendido.
129
130
## O prontuário registra cuidado e atrito
131
132
No prontuário eletrônico, o problema fica menos visível porque não há imagem para inspecionar.
133
134
Mas a mesma lógica aparece.
135
136
Um valor laboratorial registrado não representa apenas uma condição biológica. Representa também que alguém pediu o exame, que o paciente conseguiu realizá-lo, que o resultado entrou no sistema, que houve integração entre laboratórios e que a variável foi preservada de modo interpretável.
137
138
Uma medicação registrada não representa apenas tratamento. Pode representar prescrição, dispensação, uso real, reconciliação incompleta, suspensão não documentada ou cópia de lista antiga.
139
140
Uma ausência de diagnóstico não representa necessariamente ausência de doença. Pode representar falta de rastreamento, subdiagnóstico, consulta curta, barreira de acesso, fragmentação entre sistemas ou simples omissão documental.
141
142
Weiskopf e Weng organizaram dimensões clássicas de qualidade de dados em prontuário eletrônico, como completude, correção, concordância, plausibilidade e atualidade. A lista é técnica, mas seu efeito é conceitual: antes de treinar um modelo, é preciso saber que tipo de confiança o registro merece.
143
144
Um dataset pode ser grande e ainda assim ser raso.
145
146
Pode ser longitudinal e ainda assim perder eventos.
147
148
Pode ser estruturado e ainda assim carregar semântica instável.
149
150
Pode ter milhões de linhas e ainda assim depender de campos preenchidos por rotina, pressa, contrato, faturamento ou hábito local.
151
152
Isso não torna o prontuário inútil.
153
154
Torna o prontuário situado.
155
156
E dado situado exige modelo situado.
157
158
## O laudo também é sistema
159
160
Em radiologia, há outra camada que costuma ser tratada como se fosse mais simples do que é: o laudo.
161
162
O laudo parece texto clínico.
163
164
E é.
165
166
Mas também é produto de fluxo.
167
168
Ele depende da indicação fornecida, do exame realizado, da qualidade técnica, da comparação disponível, do histórico acessível, do template institucional, da urgência, do tempo de leitura, da especialidade do radiologista, da cultura de comunicação e da expectativa de quem vai receber aquele resultado.
169
170
Um laudo de emergência não é escrito no mesmo regime de um laudo ambulatorial eletivo.
171
172
Um laudo oncológico seriado não tem a mesma função de um exame inicial.
173
174
Um texto curto pode representar normalidade, pressa, confiança, baixa complexidade, padrão institucional ou limitação de contexto.
175
176
Um texto longo pode representar complexidade, defesa, incerteza, comparação, ensino ou comunicação com equipe específica.
177
178
Se um modelo aprende com laudos, ele aprende linguagem médica.
179
180
Mas também aprende estilo, template, omissão, ruído, abreviação, preferência institucional e distribuição de casos que chegam até aquele serviço.
181
182
Quando o laudo vira label, esse ponto fica ainda mais sensível.
183
184
O label não é a doença.
185
186
É uma decisão de tradução.
187
188
Alguém transformou um texto em classe, um achado em variável, uma impressão em desfecho, uma incerteza em categoria, uma dúvida em positivo ou negativo.
189
190
Às vezes essa tradução é excelente.
191
192
Às vezes é apenas conveniente.
193
194
O modelo não sabe a diferença sozinho.
195
196
## Proxy não é verdade clínica
197
198
Parte do risco aparece quando usamos uma variável disponível como substituta de uma variável importante.
199
200
Isso é inevitável em muitos projetos.
201
202
Nem todo conceito clínico relevante é diretamente mensurável. Necessidade, gravidade, fragilidade, risco social, adesão, acesso, sofrimento e continuidade raramente aparecem de forma limpa em uma coluna.
203
204
Então usamos proxies.
205
206
Custo pode virar proxy de necessidade.
207
208
Uso do sistema pode virar proxy de gravidade.
209
210
Retorno ao pronto atendimento pode virar proxy de falha.
211
212
Internação pode virar proxy de piora.
213
214
Tempo até consulta pode virar proxy de prioridade.
215
216
Código diagnóstico pode virar proxy de doença.
217
218
O problema não é usar proxy.
219
220
O problema é esquecer que proxy tem história.
221
222
O estudo de Obermeyer e colaboradores sobre viés racial em um algoritmo de gestão populacional mostrou isso de forma forte: quando custo em saúde é usado como proxy de necessidade, desigualdades prévias de acesso podem entrar no modelo como se fossem informação neutra. Pacientes com a mesma carga de doença podem gerar custos diferentes porque receberam cuidado diferente. O algoritmo não precisa usar raça explicitamente para aprender uma estrutura desigual.
223
224
Esse exemplo é importante porque desloca a discussão de "variável proibida" para "mecanismo de produção".
225
226
Retirar uma variável sensível pode ser insuficiente se o restante do dataset já carrega a história dessa variável.
227
228
O sistema aparece no dado mesmo quando o campo não aparece na tabela.
229
230
## Validação interna pode confirmar o atalho
231
232
Uma parte da confiança em IA vem de validação.
233
234
Mas validação não é um ritual único.
235
236
Ela também pode falhar do mesmo modo que o treinamento falha.
237
238
Se treino e teste são separados de forma aleatória dentro do mesmo hospital, no mesmo período, com os mesmos equipamentos, a mesma população, os mesmos protocolos, os mesmos formulários e os mesmos hábitos de registro, o teste pode confirmar que o modelo aprendeu bem aquele sistema.
239
240
Isso é útil.
241
242
Mas não é a mesma coisa que mostrar que o modelo aprendeu o fenômeno clínico de modo transportável.
243
244
Kelly e colaboradores, ao discutir desafios para impacto clínico de IA, destacam problemas como dataset shift, confundidores, viés discriminatório e generalização. A mensagem prática é simples: desempenho médio em ambiente controlado não resolve sozinho a pergunta operacional.
245
246
Um modelo pode ser bom no hospital onde nasceu.
247
248
Pode ser razoável em hospitais parecidos.
249
250
Pode degradar quando muda a população.
251
252
Pode degradar quando muda o protocolo.
253
254
Pode degradar quando muda o scanner.
255
256
Pode degradar quando muda a prevalência.
257
258
Pode degradar quando muda a forma de registrar o desfecho.
259
260
Pode degradar quando uma interface nova muda o comportamento humano que alimenta o sistema.
261
262
Essa degradação não é acidente periférico.
263
264
É parte do problema.
265
266
Em saúde, o ambiente não é estacionário. Diretrizes mudam, fluxos mudam, equipes mudam, exames mudam, nomes mudam, sistemas mudam, campanhas mudam, cobertura muda, critérios de admissão mudam, e a própria implantação de uma IA pode mudar o comportamento que ela pretendia medir.
267
268
O dado depois da implantação não é necessariamente igual ao dado antes da implantação.
269
270
## Auditoria começa antes do modelo
271
272
A consequência prática não é abandonar IA em saúde.
273
274
É mudar a ordem das perguntas.
275
276
Antes de perguntar qual arquitetura usar, vale perguntar qual cadeia produziu o dado.
277
278
Antes de comparar AUC, vale perguntar se o endpoint significa o que diz significar.
279
280
Antes de discutir generalização, vale mapear que partes do dataset são locais demais para viajar.
281
282
Antes de pedir "mais dados", vale perguntar se mais dados do mesmo sistema apenas reforçam o mesmo atalho.
283
284
Uma auditoria séria deveria olhar pelo menos para:
285
286
- origem do dado;
287
- critérios de inclusão e exclusão;
288
- população capturada e população ausente;
289
- protocolo de aquisição;
290
- equipamento, software, versão e local;
291
- indicação clínica e prioridade do pedido;
292
- fluxo de atendimento;
293
- quem registra, quando registra e por quê;
294
- campos obrigatórios, opcionais e derivados;
295
- padrões de ausência;
296
- mudança temporal de prática;
297
- processo de geração do label;
298
- conflito entre label, laudo, imagem, prontuário e desfecho;
299
- subgrupos em que erro tem consequência diferente;
300
- variáveis de processo que podem funcionar como atalho;
301
- distância entre validação retrospectiva e uso real.
302
303
Essa lista não é burocracia acadêmica.
304
305
É engenharia de confiança.
306
307
Um modelo treinado sobre dado clínico sem entender o sistema que produziu esse dado é como um laudo sem história clínica: pode estar correto, mas começa com desvantagem.
308
309
## A unidade real não é o arquivo
310
311
Em muitos projetos, a unidade de trabalho parece ser o arquivo.
312
313
Uma imagem.
314
315
Um laudo.
316
317
Uma linha de prontuário.
318
319
Um evento.
320
321
Um episódio.
322
323
Uma janela temporal.
324
325
Mas a unidade real é mais ampla.
326
327
É o circuito que faz aquela informação existir.
328
329
No caso de uma radiografia, isso inclui quem pediu, por qual motivo, em que contexto, com qual aparelho, em qual posição, com qual qualidade, com qual urgência, em qual serviço, com qual protocolo de arquivamento, com qual laudo, com qual acesso a exames prévios e com qual desfecho observável.
330
331
No caso de um prontuário, inclui a organização do serviço, a interface, o treinamento da equipe, a pressão de tempo, a integração entre sistemas, a cultura de preenchimento e o uso secundário daquele registro para faturamento, auditoria, pesquisa ou gestão.
332
333
No caso de um desfecho, inclui não apenas o evento biológico, mas a chance de ele ser detectado.
334
335
Esse ponto é decisivo.
336
337
Modelos não veem o que não foi registrado.
338
339
Mas aprendem com a ausência.
340
341
E ausência em saúde raramente é aleatória.
342
343
Ela pode significar melhora, piora, abandono, barreira de acesso, morte em outro sistema, cuidado em outro lugar, exame não indicado, exame negado, exame esquecido, integração falha ou simplesmente dado perdido.
344
345
Tratar tudo isso como missingness genérica empobrece o problema.
346
347
O dado ausente também foi produzido.
348
349
## O erro muda de nome quando entra no fluxo
350
351
Quando falamos de modelo, o erro aparece como métrica.
352
353
Falso positivo.
354
355
Falso negativo.
356
357
Sensibilidade.
358
359
Especificidade.
360
361
Calibração.
362
363
AUC.
364
365
Mas quando o modelo entra no fluxo, o erro muda de forma.
366
367
Um falso positivo pode ser exame adicional, ansiedade, fila, custo, contraste, biópsia, ligação, retorno, sobrecarga ou perda de confiança.
368
369
Um falso negativo pode ser atraso, alta indevida, não priorização, falsa tranquilidade ou ausência de busca ativa.
370
371
Um erro concentrado em um subgrupo pode virar desigualdade operacional.
372
373
Um erro concentrado em um aparelho pode parecer queda de performance de uma unidade.
374
375
Um erro concentrado em pacientes com histórico incompleto pode punir exatamente quem já chega com pior continuidade de cuidado.
376
377
Por isso, a pergunta "qual é a performance do modelo?" precisa ser acompanhada por outra:
378
379
que parte do sistema absorve o erro?
380
381
Se o erro cai sobre um médico com tempo e contexto, uma coisa acontece.
382
383
Se cai sobre uma fila automática, outra.
384
385
Se cai sobre um paciente sem capacidade de contestar, outra.
386
387
Se cai sobre um serviço já congestionado, outra.
388
389
O mesmo número pode ter consequências diferentes conforme o lugar onde aterrissa.
390
391
## O ponto não é desconfiar de tudo
392
393
Há uma tentação cética que também atrapalha.
394
395
Se todo dado é situado, então nada serve?
396
397
Não.
398
399
O ponto não é transformar contextualização em paralisia.
400
401
O ponto é abandonar a fantasia de que escala corrige tudo.
402
403
Mais dados podem ajudar.
404
405
Mais centros podem ajudar.
406
407
Mais modalidades podem ajudar.
408
409
Modelos melhores podem ajudar.
410
411
Mas só ajudam na medida em que aumentam a diversidade real de produção do dado, reduzem dependência de atalhos, expõem subgrupos difíceis, melhoram labels, tornam incerteza visível e aproximam validação do uso concreto.
412
413
Um dataset enorme, mas homogêneo no mecanismo de produção, continua estreito.
414
415
Um dataset multicêntrico, mas sem rastreabilidade de protocolo, pode apenas misturar atalhos.
416
417
Uma validação externa sem análise de processo pode mostrar degradação sem explicar por quê.
418
419
Uma auditoria de fairness sem entender acesso, registro e proxy pode medir o sintoma e perder a causa.
420
421
Sittig e Singh propuseram olhar sistemas de informação em saúde como sistemas sociotécnicos complexos, envolvendo dimensões técnicas, humanas, organizacionais e externas. Essa lente é útil para IA porque impede uma redução comum: tratar o modelo como componente isolado.
422
423
O modelo é parte de um sistema.
424
425
Mas, antes disso, ele é treinado sobre rastros de outro sistema.
426
427
## A pergunta certa
428
429
A pergunta fraca é:
430
431
que modelo consegue aprender com esses dados?
432
433
A pergunta melhor é:
434
435
que sistema produziu esses dados, e o que exatamente um modelo tenderá a aprender dele?
436
437
Essa mudança é pequena na frase e grande no trabalho.
438
439
Ela obriga a sair da abstração.
440
441
Obriga a olhar fluxo, protocolo, interface, rotina, ausência, incentivo, acesso e consequência.
442
443
Obriga a distinguir fenômeno clínico de rastro operacional.
444
445
Obriga a aceitar que o dataset não é apenas entrada técnica, mas documento institucional.
446
447
Em saúde, um modelo pode aprender doença.
448
449
Pode aprender gravidade.
450
451
Pode aprender risco.
452
453
Pode aprender resposta.
454
455
Mas também pode aprender hospital, equipamento, cobertura, linguagem, desigualdade, fila, protocolo, formulário, custo, disponibilidade, preferência local e hábito de registro.
456
457
Na prática, ele aprende uma mistura.
458
459
O trabalho sério não é fingir que essa mistura não existe.
460
461
É descobrir quando ela ajuda, quando atrapalha, quando cria atalho, quando amplifica desigualdade e quando torna uma performance aparentemente boa incapaz de viajar.
462
463
O ponto de partida, então, não é escolher primeiro a arquitetura.
464
465
Também não é tratar o dado como objeto neutro.
466
467
Começa no sistema que faz o dado existir.
468
469
E, se esse sistema não for compreendido, o modelo pode aprender exatamente o que havia de mais fácil, mais local e menos clínico no material que recebeu.
470
471
## Referências
472
473
- Badgeley MA, Zech JR, Oakden-Rayner L, Glicksberg BS, Liu M, Gale W, et al. [Deep learning predicts hip fracture using confounding patient and healthcare variables](https://doi.org/10.1038/s41746-019-0105-1). *npj Digital Medicine*. 2019;2:31.
474
- DeGrave AJ, Janizek JD, Lee S-I. [AI for radiographic COVID-19 detection selects shortcuts over signal](https://doi.org/10.1038/s42256-021-00338-7). *Nature Machine Intelligence*. 2021;3:610-619.
475
- Kelly CJ, Karthikesalingam A, Suleyman M, Corrado G, King D. [Key challenges for delivering clinical impact with artificial intelligence](https://doi.org/10.1186/s12916-019-1426-2). *BMC Medicine*. 2019;17:195.
476
- Obermeyer Z, Powers B, Vogeli C, Mullainathan S. [Dissecting racial bias in an algorithm used to manage the health of populations](https://doi.org/10.1126/science.aax2342). *Science*. 2019;366(6464):447-453.
477
- Sittig DF, Singh H. [A new sociotechnical model for studying health information technology in complex adaptive healthcare systems](https://doi.org/10.1136/qshc.2010.042085). *Quality & Safety in Health Care*. 2010;19 Suppl 3:i68-i74.
478
- Weiskopf NG, Weng C. [Methods and dimensions of electronic health record data quality assessment: enabling reuse for clinical research](https://doi.org/10.1136/amiajnl-2011-000681). *Journal of the American Medical Informatics Association*. 2013;20(1):144-151.
479
- Zech JR, Badgeley MA, Liu M, Costa AB, Titano JJ, Oermann EK. [Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: a cross-sectional study](https://doi.org/10.1371/journal.pmed.1002683). *PLOS Medicine*. 2018;15(11):e1002683.