hub/textos/o-modelo-aprende-o-sistema-que-produziu-o-dado.md
1
<!-- ensaios / artigo -->
2
# O modelo aprende o sistema que produziu o dado
3
 
4
> Em saúde, o dado que alimenta uma IA não é matéria-prima neutra; ele carrega os protocolos, interfaces, fluxos, incentivos, ausências e atalhos do sistema que o produziu.
5
 
6
Publicado em 24 de junho de 2026
7
 
8
Um modelo nunca aprende apenas o dado.
9
 
10
Aprende também a forma como aquele dado passou a existir.
11
 
12
Essa diferença parece pequena, mas muda quase tudo na conversa sobre IA em saúde.
13
 
14
Quando dizemos que um modelo foi treinado em exames, prontuários, laudos, custos, eventos, códigos ou desfechos, a frase sugere uma matéria-prima relativamente estável. Como se o dado estivesse ali, esperando ser extraído, limpo, anotado e entregue ao algoritmo.
15
 
16
Mas dado clínico não nasce assim.
17
 
18
Ele é produzido por um sistema.
19
 
20
Antes de virar linha de tabela, imagem, texto, label ou variável, o dado passou por acesso, triagem, indicação, protocolo, equipamento, interface, linguagem, agenda, cobertura, incentivo, hábito documental, cultura institucional, limitação operacional e decisão humana.
21
 
22
Às vezes passou também por ausência.
23
 
24
O exame que não foi pedido.
25
 
26
O sintoma que não foi registrado.
27
 
28
O paciente que não chegou.
29
 
30
O campo que ficou vazio.
31
 
32
O laudo que disse menos do que o radiologista pensou.
33
 
34
O código usado porque era o mais próximo disponível.
35
 
36
O desfecho medido porque era o único observável.
37
 
38
Quando uma IA aprende sobre esse material, ela não tem acesso direto ao fenômeno clínico em estado puro. Ela acessa o fenômeno filtrado por uma cadeia de produção.
39
 
40
E essa cadeia deixa marcas.
41
 
42
## Dado clínico não é matéria-prima bruta
43
 
44
Há uma forma conveniente de imaginar dados em saúde.
45
 
46
O mundo clínico produziria fatos.
47
 
48
O prontuário registraria esses fatos.
49
 
50
O dataset organizaria esses registros.
51
 
52
O modelo aprenderia padrões.
53
 
54
A validação mediria se os padrões são bons.
55
 
56
Essa sequência é útil como simplificação técnica, mas ruim como descrição da realidade.
57
 
58
O prontuário não é uma câmera apontada para o cuidado.
59
 
60
O PACS não é uma janela neutra para a doença.
61
 
62
O laudo não é apenas a transcrição objetiva de um achado.
63
 
64
O código de faturamento não é sinônimo de necessidade clínica.
65
 
66
A falta de informação não é ausência de fenômeno.
67
 
68
Cada uma dessas formas de registro é uma negociação entre o que aconteceu, o que foi percebido, o que foi possível perguntar, o que foi necessário documentar, o que o sistema permitiu escrever, o que havia tempo de escrever e o que teria consequência se fosse escrito.
69
 
70
Por isso, em saúde, a pergunta "qual é o dado?" raramente basta.
71
 
72
É preciso perguntar: como esse dado foi produzido?
73
 
74
Quem entrou no sistema?
75
 
76
Quem ficou fora?
77
 
78
Quem foi examinado?
79
 
80
Quem foi acompanhado?
81
 
82
Quem teve acesso ao teste confirmatório?
83
 
84
Que protocolo estava vigente?
85
 
86
Que aparelho gerou a imagem?
87
 
88
Que formulário obrigava resposta?
89
 
90
Que campo era opcional?
91
 
92
Que equipe preenchia?
93
 
94
Que incentivo tornava algo visível?
95
 
96
Que parte do cuidado acontecia, mas não virava registro?
97
 
98
Um modelo treinado sem essas perguntas pode até performar bem.
99
 
100
O problema é que não sabemos exatamente sobre o quê.
101
 
102
## O atalho parece sinal
103
 
104
Modelos são bons em explorar regularidades.
105
 
106
Essa é a força deles.
107
 
108
Também é o risco.
109
 
110
Quando a regularidade clinicamente relevante está misturada a regularidades operacionais, o modelo pode aprender o caminho mais fácil.
111
 
112
Não porque seja mal-intencionado.
113
 
114
Porque otimização não tem intuição clínica.
115
 
116
Se uma variável de contexto ajuda a reduzir erro no dataset, ela pode virar sinal. Se o hospital, o scanner, o tipo de exame, a prioridade do pedido, o padrão de compressão, a incidência, a lateralidade do marcador, a posição do paciente ou a presença de um dispositivo estiverem correlacionados com o desfecho, o modelo pode usar isso.
117
 
118
O caso de radiografias de tórax para pneumonia, estudado por Zech e colaboradores, tornou esse ponto bastante concreto. O trabalho mostrou que modelos treinados em radiografias de determinados sistemas hospitalares tinham desempenho pior quando testados em outros locais, e que redes neurais conseguiam identificar o sistema hospitalar ou o departamento onde a imagem foi adquirida. A suspeita não era apenas "o modelo errou fora". Era mais incômoda: parte da performance interna podia estar apoiada em informação de procedência, não apenas em achado pulmonar.
119
 
120
Badgeley e colaboradores fizeram uma demonstração igualmente útil em radiografias de quadril. Um modelo treinado para predizer fratura também conseguia predizer variáveis de processo, como fabricante do scanner, modelo do equipamento e prioridade do pedido. Quando os autores balancearam variáveis de paciente e processo, a performance para fratura caiu de modo importante. A imagem carregava mais do que osso.
121
 
122
Durante a pandemia, DeGrave e colaboradores analisaram modelos para detecção radiográfica de COVID-19 e mostraram que sistemas aparentemente bons podiam selecionar atalhos relacionados à forma de coleta dos dados. A patologia estava no problema, mas o atalho estava no dataset.
123
 
124
Esses exemplos são radiológicos, mas a lição é mais ampla.
125
 
126
O modelo aprende o que ajuda a prever.
127
 
128
Não necessariamente o que gostaríamos que ele tivesse aprendido.
129
 
130
## O prontuário registra cuidado e atrito
131
 
132
No prontuário eletrônico, o problema fica menos visível porque não há imagem para inspecionar.
133
 
134
Mas a mesma lógica aparece.
135
 
136
Um valor laboratorial registrado não representa apenas uma condição biológica. Representa também que alguém pediu o exame, que o paciente conseguiu realizá-lo, que o resultado entrou no sistema, que houve integração entre laboratórios e que a variável foi preservada de modo interpretável.
137
 
138
Uma medicação registrada não representa apenas tratamento. Pode representar prescrição, dispensação, uso real, reconciliação incompleta, suspensão não documentada ou cópia de lista antiga.
139
 
140
Uma ausência de diagnóstico não representa necessariamente ausência de doença. Pode representar falta de rastreamento, subdiagnóstico, consulta curta, barreira de acesso, fragmentação entre sistemas ou simples omissão documental.
141
 
142
Weiskopf e Weng organizaram dimensões clássicas de qualidade de dados em prontuário eletrônico, como completude, correção, concordância, plausibilidade e atualidade. A lista é técnica, mas seu efeito é conceitual: antes de treinar um modelo, é preciso saber que tipo de confiança o registro merece.
143
 
144
Um dataset pode ser grande e ainda assim ser raso.
145
 
146
Pode ser longitudinal e ainda assim perder eventos.
147
 
148
Pode ser estruturado e ainda assim carregar semântica instável.
149
 
150
Pode ter milhões de linhas e ainda assim depender de campos preenchidos por rotina, pressa, contrato, faturamento ou hábito local.
151
 
152
Isso não torna o prontuário inútil.
153
 
154
Torna o prontuário situado.
155
 
156
E dado situado exige modelo situado.
157
 
158
## O laudo também é sistema
159
 
160
Em radiologia, há outra camada que costuma ser tratada como se fosse mais simples do que é: o laudo.
161
 
162
O laudo parece texto clínico.
163
 
164
E é.
165
 
166
Mas também é produto de fluxo.
167
 
168
Ele depende da indicação fornecida, do exame realizado, da qualidade técnica, da comparação disponível, do histórico acessível, do template institucional, da urgência, do tempo de leitura, da especialidade do radiologista, da cultura de comunicação e da expectativa de quem vai receber aquele resultado.
169
 
170
Um laudo de emergência não é escrito no mesmo regime de um laudo ambulatorial eletivo.
171
 
172
Um laudo oncológico seriado não tem a mesma função de um exame inicial.
173
 
174
Um texto curto pode representar normalidade, pressa, confiança, baixa complexidade, padrão institucional ou limitação de contexto.
175
 
176
Um texto longo pode representar complexidade, defesa, incerteza, comparação, ensino ou comunicação com equipe específica.
177
 
178
Se um modelo aprende com laudos, ele aprende linguagem médica.
179
 
180
Mas também aprende estilo, template, omissão, ruído, abreviação, preferência institucional e distribuição de casos que chegam até aquele serviço.
181
 
182
Quando o laudo vira label, esse ponto fica ainda mais sensível.
183
 
184
O label não é a doença.
185
 
186
É uma decisão de tradução.
187
 
188
Alguém transformou um texto em classe, um achado em variável, uma impressão em desfecho, uma incerteza em categoria, uma dúvida em positivo ou negativo.
189
 
190
Às vezes essa tradução é excelente.
191
 
192
Às vezes é apenas conveniente.
193
 
194
O modelo não sabe a diferença sozinho.
195
 
196
## Proxy não é verdade clínica
197
 
198
Parte do risco aparece quando usamos uma variável disponível como substituta de uma variável importante.
199
 
200
Isso é inevitável em muitos projetos.
201
 
202
Nem todo conceito clínico relevante é diretamente mensurável. Necessidade, gravidade, fragilidade, risco social, adesão, acesso, sofrimento e continuidade raramente aparecem de forma limpa em uma coluna.
203
 
204
Então usamos proxies.
205
 
206
Custo pode virar proxy de necessidade.
207
 
208
Uso do sistema pode virar proxy de gravidade.
209
 
210
Retorno ao pronto atendimento pode virar proxy de falha.
211
 
212
Internação pode virar proxy de piora.
213
 
214
Tempo até consulta pode virar proxy de prioridade.
215
 
216
Código diagnóstico pode virar proxy de doença.
217
 
218
O problema não é usar proxy.
219
 
220
O problema é esquecer que proxy tem história.
221
 
222
O estudo de Obermeyer e colaboradores sobre viés racial em um algoritmo de gestão populacional mostrou isso de forma forte: quando custo em saúde é usado como proxy de necessidade, desigualdades prévias de acesso podem entrar no modelo como se fossem informação neutra. Pacientes com a mesma carga de doença podem gerar custos diferentes porque receberam cuidado diferente. O algoritmo não precisa usar raça explicitamente para aprender uma estrutura desigual.
223
 
224
Esse exemplo é importante porque desloca a discussão de "variável proibida" para "mecanismo de produção".
225
 
226
Retirar uma variável sensível pode ser insuficiente se o restante do dataset já carrega a história dessa variável.
227
 
228
O sistema aparece no dado mesmo quando o campo não aparece na tabela.
229
 
230
## Validação interna pode confirmar o atalho
231
 
232
Uma parte da confiança em IA vem de validação.
233
 
234
Mas validação não é um ritual único.
235
 
236
Ela também pode falhar do mesmo modo que o treinamento falha.
237
 
238
Se treino e teste são separados de forma aleatória dentro do mesmo hospital, no mesmo período, com os mesmos equipamentos, a mesma população, os mesmos protocolos, os mesmos formulários e os mesmos hábitos de registro, o teste pode confirmar que o modelo aprendeu bem aquele sistema.
239
 
240
Isso é útil.
241
 
242
Mas não é a mesma coisa que mostrar que o modelo aprendeu o fenômeno clínico de modo transportável.
243
 
244
Kelly e colaboradores, ao discutir desafios para impacto clínico de IA, destacam problemas como dataset shift, confundidores, viés discriminatório e generalização. A mensagem prática é simples: desempenho médio em ambiente controlado não resolve sozinho a pergunta operacional.
245
 
246
Um modelo pode ser bom no hospital onde nasceu.
247
 
248
Pode ser razoável em hospitais parecidos.
249
 
250
Pode degradar quando muda a população.
251
 
252
Pode degradar quando muda o protocolo.
253
 
254
Pode degradar quando muda o scanner.
255
 
256
Pode degradar quando muda a prevalência.
257
 
258
Pode degradar quando muda a forma de registrar o desfecho.
259
 
260
Pode degradar quando uma interface nova muda o comportamento humano que alimenta o sistema.
261
 
262
Essa degradação não é acidente periférico.
263
 
264
É parte do problema.
265
 
266
Em saúde, o ambiente não é estacionário. Diretrizes mudam, fluxos mudam, equipes mudam, exames mudam, nomes mudam, sistemas mudam, campanhas mudam, cobertura muda, critérios de admissão mudam, e a própria implantação de uma IA pode mudar o comportamento que ela pretendia medir.
267
 
268
O dado depois da implantação não é necessariamente igual ao dado antes da implantação.
269
 
270
## Auditoria começa antes do modelo
271
 
272
A consequência prática não é abandonar IA em saúde.
273
 
274
É mudar a ordem das perguntas.
275
 
276
Antes de perguntar qual arquitetura usar, vale perguntar qual cadeia produziu o dado.
277
 
278
Antes de comparar AUC, vale perguntar se o endpoint significa o que diz significar.
279
 
280
Antes de discutir generalização, vale mapear que partes do dataset são locais demais para viajar.
281
 
282
Antes de pedir "mais dados", vale perguntar se mais dados do mesmo sistema apenas reforçam o mesmo atalho.
283
 
284
Uma auditoria séria deveria olhar pelo menos para:
285
 
286
- origem do dado;
287
- critérios de inclusão e exclusão;
288
- população capturada e população ausente;
289
- protocolo de aquisição;
290
- equipamento, software, versão e local;
291
- indicação clínica e prioridade do pedido;
292
- fluxo de atendimento;
293
- quem registra, quando registra e por quê;
294
- campos obrigatórios, opcionais e derivados;
295
- padrões de ausência;
296
- mudança temporal de prática;
297
- processo de geração do label;
298
- conflito entre label, laudo, imagem, prontuário e desfecho;
299
- subgrupos em que erro tem consequência diferente;
300
- variáveis de processo que podem funcionar como atalho;
301
- distância entre validação retrospectiva e uso real.
302
 
303
Essa lista não é burocracia acadêmica.
304
 
305
É engenharia de confiança.
306
 
307
Um modelo treinado sobre dado clínico sem entender o sistema que produziu esse dado é como um laudo sem história clínica: pode estar correto, mas começa com desvantagem.
308
 
309
## A unidade real não é o arquivo
310
 
311
Em muitos projetos, a unidade de trabalho parece ser o arquivo.
312
 
313
Uma imagem.
314
 
315
Um laudo.
316
 
317
Uma linha de prontuário.
318
 
319
Um evento.
320
 
321
Um episódio.
322
 
323
Uma janela temporal.
324
 
325
Mas a unidade real é mais ampla.
326
 
327
É o circuito que faz aquela informação existir.
328
 
329
No caso de uma radiografia, isso inclui quem pediu, por qual motivo, em que contexto, com qual aparelho, em qual posição, com qual qualidade, com qual urgência, em qual serviço, com qual protocolo de arquivamento, com qual laudo, com qual acesso a exames prévios e com qual desfecho observável.
330
 
331
No caso de um prontuário, inclui a organização do serviço, a interface, o treinamento da equipe, a pressão de tempo, a integração entre sistemas, a cultura de preenchimento e o uso secundário daquele registro para faturamento, auditoria, pesquisa ou gestão.
332
 
333
No caso de um desfecho, inclui não apenas o evento biológico, mas a chance de ele ser detectado.
334
 
335
Esse ponto é decisivo.
336
 
337
Modelos não veem o que não foi registrado.
338
 
339
Mas aprendem com a ausência.
340
 
341
E ausência em saúde raramente é aleatória.
342
 
343
Ela pode significar melhora, piora, abandono, barreira de acesso, morte em outro sistema, cuidado em outro lugar, exame não indicado, exame negado, exame esquecido, integração falha ou simplesmente dado perdido.
344
 
345
Tratar tudo isso como missingness genérica empobrece o problema.
346
 
347
O dado ausente também foi produzido.
348
 
349
## O erro muda de nome quando entra no fluxo
350
 
351
Quando falamos de modelo, o erro aparece como métrica.
352
 
353
Falso positivo.
354
 
355
Falso negativo.
356
 
357
Sensibilidade.
358
 
359
Especificidade.
360
 
361
Calibração.
362
 
363
AUC.
364
 
365
Mas quando o modelo entra no fluxo, o erro muda de forma.
366
 
367
Um falso positivo pode ser exame adicional, ansiedade, fila, custo, contraste, biópsia, ligação, retorno, sobrecarga ou perda de confiança.
368
 
369
Um falso negativo pode ser atraso, alta indevida, não priorização, falsa tranquilidade ou ausência de busca ativa.
370
 
371
Um erro concentrado em um subgrupo pode virar desigualdade operacional.
372
 
373
Um erro concentrado em um aparelho pode parecer queda de performance de uma unidade.
374
 
375
Um erro concentrado em pacientes com histórico incompleto pode punir exatamente quem já chega com pior continuidade de cuidado.
376
 
377
Por isso, a pergunta "qual é a performance do modelo?" precisa ser acompanhada por outra:
378
 
379
que parte do sistema absorve o erro?
380
 
381
Se o erro cai sobre um médico com tempo e contexto, uma coisa acontece.
382
 
383
Se cai sobre uma fila automática, outra.
384
 
385
Se cai sobre um paciente sem capacidade de contestar, outra.
386
 
387
Se cai sobre um serviço já congestionado, outra.
388
 
389
O mesmo número pode ter consequências diferentes conforme o lugar onde aterrissa.
390
 
391
## O ponto não é desconfiar de tudo
392
 
393
Há uma tentação cética que também atrapalha.
394
 
395
Se todo dado é situado, então nada serve?
396
 
397
Não.
398
 
399
O ponto não é transformar contextualização em paralisia.
400
 
401
O ponto é abandonar a fantasia de que escala corrige tudo.
402
 
403
Mais dados podem ajudar.
404
 
405
Mais centros podem ajudar.
406
 
407
Mais modalidades podem ajudar.
408
 
409
Modelos melhores podem ajudar.
410
 
411
Mas só ajudam na medida em que aumentam a diversidade real de produção do dado, reduzem dependência de atalhos, expõem subgrupos difíceis, melhoram labels, tornam incerteza visível e aproximam validação do uso concreto.
412
 
413
Um dataset enorme, mas homogêneo no mecanismo de produção, continua estreito.
414
 
415
Um dataset multicêntrico, mas sem rastreabilidade de protocolo, pode apenas misturar atalhos.
416
 
417
Uma validação externa sem análise de processo pode mostrar degradação sem explicar por quê.
418
 
419
Uma auditoria de fairness sem entender acesso, registro e proxy pode medir o sintoma e perder a causa.
420
 
421
Sittig e Singh propuseram olhar sistemas de informação em saúde como sistemas sociotécnicos complexos, envolvendo dimensões técnicas, humanas, organizacionais e externas. Essa lente é útil para IA porque impede uma redução comum: tratar o modelo como componente isolado.
422
 
423
O modelo é parte de um sistema.
424
 
425
Mas, antes disso, ele é treinado sobre rastros de outro sistema.
426
 
427
## A pergunta certa
428
 
429
A pergunta fraca é:
430
 
431
que modelo consegue aprender com esses dados?
432
 
433
A pergunta melhor é:
434
 
435
que sistema produziu esses dados, e o que exatamente um modelo tenderá a aprender dele?
436
 
437
Essa mudança é pequena na frase e grande no trabalho.
438
 
439
Ela obriga a sair da abstração.
440
 
441
Obriga a olhar fluxo, protocolo, interface, rotina, ausência, incentivo, acesso e consequência.
442
 
443
Obriga a distinguir fenômeno clínico de rastro operacional.
444
 
445
Obriga a aceitar que o dataset não é apenas entrada técnica, mas documento institucional.
446
 
447
Em saúde, um modelo pode aprender doença.
448
 
449
Pode aprender gravidade.
450
 
451
Pode aprender risco.
452
 
453
Pode aprender resposta.
454
 
455
Mas também pode aprender hospital, equipamento, cobertura, linguagem, desigualdade, fila, protocolo, formulário, custo, disponibilidade, preferência local e hábito de registro.
456
 
457
Na prática, ele aprende uma mistura.
458
 
459
O trabalho sério não é fingir que essa mistura não existe.
460
 
461
É descobrir quando ela ajuda, quando atrapalha, quando cria atalho, quando amplifica desigualdade e quando torna uma performance aparentemente boa incapaz de viajar.
462
 
463
O ponto de partida, então, não é escolher primeiro a arquitetura.
464
 
465
Também não é tratar o dado como objeto neutro.
466
 
467
Começa no sistema que faz o dado existir.
468
 
469
E, se esse sistema não for compreendido, o modelo pode aprender exatamente o que havia de mais fácil, mais local e menos clínico no material que recebeu.
470
 
471
## Referências
472
 
473
- Badgeley MA, Zech JR, Oakden-Rayner L, Glicksberg BS, Liu M, Gale W, et al. [Deep learning predicts hip fracture using confounding patient and healthcare variables](https://doi.org/10.1038/s41746-019-0105-1). *npj Digital Medicine*. 2019;2:31.
474
- DeGrave AJ, Janizek JD, Lee S-I. [AI for radiographic COVID-19 detection selects shortcuts over signal](https://doi.org/10.1038/s42256-021-00338-7). *Nature Machine Intelligence*. 2021;3:610-619.
475
- Kelly CJ, Karthikesalingam A, Suleyman M, Corrado G, King D. [Key challenges for delivering clinical impact with artificial intelligence](https://doi.org/10.1186/s12916-019-1426-2). *BMC Medicine*. 2019;17:195.
476
- Obermeyer Z, Powers B, Vogeli C, Mullainathan S. [Dissecting racial bias in an algorithm used to manage the health of populations](https://doi.org/10.1126/science.aax2342). *Science*. 2019;366(6464):447-453.
477
- Sittig DF, Singh H. [A new sociotechnical model for studying health information technology in complex adaptive healthcare systems](https://doi.org/10.1136/qshc.2010.042085). *Quality & Safety in Health Care*. 2010;19 Suppl 3:i68-i74.
478
- Weiskopf NG, Weng C. [Methods and dimensions of electronic health record data quality assessment: enabling reuse for clinical research](https://doi.org/10.1136/amiajnl-2011-000681). *Journal of the American Medical Informatics Association*. 2013;20(1):144-151.
479
- Zech JR, Badgeley MA, Liu M, Costa AB, Titano JJ, Oermann EK. [Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: a cross-sectional study](https://doi.org/10.1371/journal.pmed.1002683). *PLOS Medicine*. 2018;15(11):e1002683.

Rodrigo Américo Cunha de Souza

Escreve sobre operações, dados e engenharia de processos em radiologia.