O modelo aprende o sistema que produziu o dado

hub/textos/o-modelo-aprende-o-sistema-que-produziu-o-dado.md

# O modelo aprende o sistema que produziu o dado

> Em saúde, o dado que alimenta uma IA não é matéria-prima neutra; ele carrega os protocolos, interfaces, fluxos, incentivos, ausências e atalhos do sistema que o produziu.

Publicado em 24 de junho de 2026

Um modelo nunca aprende apenas o dado.

Aprende também a forma como aquele dado passou a existir.

Essa diferença parece pequena, mas muda quase tudo na conversa sobre IA em saúde.

Quando dizemos que um modelo foi treinado em exames, prontuários, laudos, custos, eventos, códigos ou desfechos, a frase sugere uma matéria-prima relativamente estável. Como se o dado estivesse ali, esperando ser extraído, limpo, anotado e entregue ao algoritmo.

Mas dado clínico não nasce assim.

Ele é produzido por um sistema.

Antes de virar linha de tabela, imagem, texto, label ou variável, o dado passou por acesso, triagem, indicação, protocolo, equipamento, interface, linguagem, agenda, cobertura, incentivo, hábito documental, cultura institucional, limitação operacional e decisão humana.

Às vezes passou também por ausência.

O exame que não foi pedido.

O sintoma que não foi registrado.

O paciente que não chegou.

O campo que ficou vazio.

O laudo que disse menos do que o radiologista pensou.

O código usado porque era o mais próximo disponível.

O desfecho medido porque era o único observável.

Quando uma IA aprende sobre esse material, ela não tem acesso direto ao fenômeno clínico em estado puro. Ela acessa o fenômeno filtrado por uma cadeia de produção.

E essa cadeia deixa marcas.

## Dado clínico não é matéria-prima bruta

Há uma forma conveniente de imaginar dados em saúde.

O mundo clínico produziria fatos.

O prontuário registraria esses fatos.

O dataset organizaria esses registros.

O modelo aprenderia padrões.

A validação mediria se os padrões são bons.

Essa sequência é útil como simplificação técnica, mas ruim como descrição da realidade.

O prontuário não é uma câmera apontada para o cuidado.

O PACS não é uma janela neutra para a doença.

O laudo não é apenas a transcrição objetiva de um achado.

O código de faturamento não é sinônimo de necessidade clínica.

A falta de informação não é ausência de fenômeno.

Cada uma dessas formas de registro é uma negociação entre o que aconteceu, o que foi percebido, o que foi possível perguntar, o que foi necessário documentar, o que o sistema permitiu escrever, o que havia tempo de escrever e o que teria consequência se fosse escrito.

Por isso, em saúde, a pergunta "qual é o dado?" raramente basta.

É preciso perguntar: como esse dado foi produzido?

Quem entrou no sistema?

Quem ficou fora?

Quem foi examinado?

Quem foi acompanhado?

Quem teve acesso ao teste confirmatório?

Que protocolo estava vigente?

Que aparelho gerou a imagem?

Que formulário obrigava resposta?

Que campo era opcional?

Que equipe preenchia?

Que incentivo tornava algo visível?

Que parte do cuidado acontecia, mas não virava registro?

Um modelo treinado sem essas perguntas pode até performar bem.

100

O problema é que não sabemos exatamente sobre o quê.

101

102

## O atalho parece sinal

103

104

Modelos são bons em explorar regularidades.

105

106

Essa é a força deles.

107

108

Também é o risco.

109

110

Quando a regularidade clinicamente relevante está misturada a regularidades operacionais, o modelo pode aprender o caminho mais fácil.

111

112

Não porque seja mal-intencionado.

113

114

Porque otimização não tem intuição clínica.

115

116

Se uma variável de contexto ajuda a reduzir erro no dataset, ela pode virar sinal. Se o hospital, o scanner, o tipo de exame, a prioridade do pedido, o padrão de compressão, a incidência, a lateralidade do marcador, a posição do paciente ou a presença de um dispositivo estiverem correlacionados com o desfecho, o modelo pode usar isso.

117

118

O caso de radiografias de tórax para pneumonia, estudado por Zech e colaboradores, tornou esse ponto bastante concreto. O trabalho mostrou que modelos treinados em radiografias de determinados sistemas hospitalares tinham desempenho pior quando testados em outros locais, e que redes neurais conseguiam identificar o sistema hospitalar ou o departamento onde a imagem foi adquirida. A suspeita não era apenas "o modelo errou fora". Era mais incômoda: parte da performance interna podia estar apoiada em informação de procedência, não apenas em achado pulmonar.

119

120

Badgeley e colaboradores fizeram uma demonstração igualmente útil em radiografias de quadril. Um modelo treinado para predizer fratura também conseguia predizer variáveis de processo, como fabricante do scanner, modelo do equipamento e prioridade do pedido. Quando os autores balancearam variáveis de paciente e processo, a performance para fratura caiu de modo importante. A imagem carregava mais do que osso.

121

122

Durante a pandemia, DeGrave e colaboradores analisaram modelos para detecção radiográfica de COVID-19 e mostraram que sistemas aparentemente bons podiam selecionar atalhos relacionados à forma de coleta dos dados. A patologia estava no problema, mas o atalho estava no dataset.

123

124

Esses exemplos são radiológicos, mas a lição é mais ampla.

125

126

O modelo aprende o que ajuda a prever.

127

128

Não necessariamente o que gostaríamos que ele tivesse aprendido.

129

130

## O prontuário registra cuidado e atrito

131

132

No prontuário eletrônico, o problema fica menos visível porque não há imagem para inspecionar.

133

134

Mas a mesma lógica aparece.

135

136

Um valor laboratorial registrado não representa apenas uma condição biológica. Representa também que alguém pediu o exame, que o paciente conseguiu realizá-lo, que o resultado entrou no sistema, que houve integração entre laboratórios e que a variável foi preservada de modo interpretável.

137

138

Uma medicação registrada não representa apenas tratamento. Pode representar prescrição, dispensação, uso real, reconciliação incompleta, suspensão não documentada ou cópia de lista antiga.

139

140

Uma ausência de diagnóstico não representa necessariamente ausência de doença. Pode representar falta de rastreamento, subdiagnóstico, consulta curta, barreira de acesso, fragmentação entre sistemas ou simples omissão documental.

141

142

Weiskopf e Weng organizaram dimensões clássicas de qualidade de dados em prontuário eletrônico, como completude, correção, concordância, plausibilidade e atualidade. A lista é técnica, mas seu efeito é conceitual: antes de treinar um modelo, é preciso saber que tipo de confiança o registro merece.

143

144

Um dataset pode ser grande e ainda assim ser raso.

145

146

Pode ser longitudinal e ainda assim perder eventos.

147

148

Pode ser estruturado e ainda assim carregar semântica instável.

149

150

Pode ter milhões de linhas e ainda assim depender de campos preenchidos por rotina, pressa, contrato, faturamento ou hábito local.

151

152

Isso não torna o prontuário inútil.

153

154

Torna o prontuário situado.

155

156

E dado situado exige modelo situado.

157

158

## O laudo também é sistema

159

160

Em radiologia, há outra camada que costuma ser tratada como se fosse mais simples do que é: o laudo.

161

162

O laudo parece texto clínico.

163

164

E é.

165

166

Mas também é produto de fluxo.

167

168

Ele depende da indicação fornecida, do exame realizado, da qualidade técnica, da comparação disponível, do histórico acessível, do template institucional, da urgência, do tempo de leitura, da especialidade do radiologista, da cultura de comunicação e da expectativa de quem vai receber aquele resultado.

169

170

Um laudo de emergência não é escrito no mesmo regime de um laudo ambulatorial eletivo.

171

172

Um laudo oncológico seriado não tem a mesma função de um exame inicial.

173

174

Um texto curto pode representar normalidade, pressa, confiança, baixa complexidade, padrão institucional ou limitação de contexto.

175

176

Um texto longo pode representar complexidade, defesa, incerteza, comparação, ensino ou comunicação com equipe específica.

177

178

Se um modelo aprende com laudos, ele aprende linguagem médica.

179

180

Mas também aprende estilo, template, omissão, ruído, abreviação, preferência institucional e distribuição de casos que chegam até aquele serviço.

181

182

Quando o laudo vira label, esse ponto fica ainda mais sensível.

183

184

O label não é a doença.

185

186

É uma decisão de tradução.

187

188

Alguém transformou um texto em classe, um achado em variável, uma impressão em desfecho, uma incerteza em categoria, uma dúvida em positivo ou negativo.

189

190

Às vezes essa tradução é excelente.

191

192

Às vezes é apenas conveniente.

193

194

O modelo não sabe a diferença sozinho.

195

196

## Proxy não é verdade clínica

197

198

Parte do risco aparece quando usamos uma variável disponível como substituta de uma variável importante.

199

200

Isso é inevitável em muitos projetos.

201

202

Nem todo conceito clínico relevante é diretamente mensurável. Necessidade, gravidade, fragilidade, risco social, adesão, acesso, sofrimento e continuidade raramente aparecem de forma limpa em uma coluna.

203

204

Então usamos proxies.

205

206

Custo pode virar proxy de necessidade.

207

208

Uso do sistema pode virar proxy de gravidade.

209

210

Retorno ao pronto atendimento pode virar proxy de falha.

211

212

Internação pode virar proxy de piora.

213

214

Tempo até consulta pode virar proxy de prioridade.

215

216

Código diagnóstico pode virar proxy de doença.

217

218

O problema não é usar proxy.

219

220

O problema é esquecer que proxy tem história.

221

222

O estudo de Obermeyer e colaboradores sobre viés racial em um algoritmo de gestão populacional mostrou isso de forma forte: quando custo em saúde é usado como proxy de necessidade, desigualdades prévias de acesso podem entrar no modelo como se fossem informação neutra. Pacientes com a mesma carga de doença podem gerar custos diferentes porque receberam cuidado diferente. O algoritmo não precisa usar raça explicitamente para aprender uma estrutura desigual.

223

224

Esse exemplo é importante porque desloca a discussão de "variável proibida" para "mecanismo de produção".

225

226

Retirar uma variável sensível pode ser insuficiente se o restante do dataset já carrega a história dessa variável.

227

228

O sistema aparece no dado mesmo quando o campo não aparece na tabela.

229

230

## Validação interna pode confirmar o atalho

231

232

Uma parte da confiança em IA vem de validação.

233

234

Mas validação não é um ritual único.

235

236

Ela também pode falhar do mesmo modo que o treinamento falha.

237

238

Se treino e teste são separados de forma aleatória dentro do mesmo hospital, no mesmo período, com os mesmos equipamentos, a mesma população, os mesmos protocolos, os mesmos formulários e os mesmos hábitos de registro, o teste pode confirmar que o modelo aprendeu bem aquele sistema.

239

240

Isso é útil.

241

242

Mas não é a mesma coisa que mostrar que o modelo aprendeu o fenômeno clínico de modo transportável.

243

244

Kelly e colaboradores, ao discutir desafios para impacto clínico de IA, destacam problemas como dataset shift, confundidores, viés discriminatório e generalização. A mensagem prática é simples: desempenho médio em ambiente controlado não resolve sozinho a pergunta operacional.

245

246

Um modelo pode ser bom no hospital onde nasceu.

247

248

Pode ser razoável em hospitais parecidos.

249

250

Pode degradar quando muda a população.

251

252

Pode degradar quando muda o protocolo.

253

254

Pode degradar quando muda o scanner.

255

256

Pode degradar quando muda a prevalência.

257

258

Pode degradar quando muda a forma de registrar o desfecho.

259

260

Pode degradar quando uma interface nova muda o comportamento humano que alimenta o sistema.

261

262

Essa degradação não é acidente periférico.

263

264

É parte do problema.

265

266

Em saúde, o ambiente não é estacionário. Diretrizes mudam, fluxos mudam, equipes mudam, exames mudam, nomes mudam, sistemas mudam, campanhas mudam, cobertura muda, critérios de admissão mudam, e a própria implantação de uma IA pode mudar o comportamento que ela pretendia medir.

267

268

O dado depois da implantação não é necessariamente igual ao dado antes da implantação.

269

270

## Auditoria começa antes do modelo

271

272

A consequência prática não é abandonar IA em saúde.

273

274

É mudar a ordem das perguntas.

275

276

Antes de perguntar qual arquitetura usar, vale perguntar qual cadeia produziu o dado.

277

278

Antes de comparar AUC, vale perguntar se o endpoint significa o que diz significar.

279

280

Antes de discutir generalização, vale mapear que partes do dataset são locais demais para viajar.

281

282

Antes de pedir "mais dados", vale perguntar se mais dados do mesmo sistema apenas reforçam o mesmo atalho.

283

284

Uma auditoria séria deveria olhar pelo menos para:

285

286

- origem do dado;

287

- critérios de inclusão e exclusão;

288

- população capturada e população ausente;

289

- protocolo de aquisição;

290

- equipamento, software, versão e local;

291

- indicação clínica e prioridade do pedido;

292

- fluxo de atendimento;

293

- quem registra, quando registra e por quê;

294

- campos obrigatórios, opcionais e derivados;

295

- padrões de ausência;

296

- mudança temporal de prática;

297

- processo de geração do label;

298

- conflito entre label, laudo, imagem, prontuário e desfecho;

299

- subgrupos em que erro tem consequência diferente;

300

- variáveis de processo que podem funcionar como atalho;

301

- distância entre validação retrospectiva e uso real.

302

303

Essa lista não é burocracia acadêmica.

304

305

É engenharia de confiança.

306

307

Um modelo treinado sobre dado clínico sem entender o sistema que produziu esse dado é como um laudo sem história clínica: pode estar correto, mas começa com desvantagem.

308

309

## A unidade real não é o arquivo

310

311

Em muitos projetos, a unidade de trabalho parece ser o arquivo.

312

313

Uma imagem.

314

315

Um laudo.

316

317

Uma linha de prontuário.

318

319

Um evento.

320

321

Um episódio.

322

323

Uma janela temporal.

324

325

Mas a unidade real é mais ampla.

326

327

É o circuito que faz aquela informação existir.

328

329

No caso de uma radiografia, isso inclui quem pediu, por qual motivo, em que contexto, com qual aparelho, em qual posição, com qual qualidade, com qual urgência, em qual serviço, com qual protocolo de arquivamento, com qual laudo, com qual acesso a exames prévios e com qual desfecho observável.

330

331

No caso de um prontuário, inclui a organização do serviço, a interface, o treinamento da equipe, a pressão de tempo, a integração entre sistemas, a cultura de preenchimento e o uso secundário daquele registro para faturamento, auditoria, pesquisa ou gestão.

332

333

No caso de um desfecho, inclui não apenas o evento biológico, mas a chance de ele ser detectado.

334

335

Esse ponto é decisivo.

336

337

Modelos não veem o que não foi registrado.

338

339

Mas aprendem com a ausência.

340

341

E ausência em saúde raramente é aleatória.

342

343

Ela pode significar melhora, piora, abandono, barreira de acesso, morte em outro sistema, cuidado em outro lugar, exame não indicado, exame negado, exame esquecido, integração falha ou simplesmente dado perdido.

344

345

Tratar tudo isso como missingness genérica empobrece o problema.

346

347

O dado ausente também foi produzido.

348

349

## O erro muda de nome quando entra no fluxo

350

351

Quando falamos de modelo, o erro aparece como métrica.

352

353

Falso positivo.

354

355

Falso negativo.

356

357

Sensibilidade.

358

359

Especificidade.

360

361

Calibração.

362

363

AUC.

364

365

Mas quando o modelo entra no fluxo, o erro muda de forma.

366

367

Um falso positivo pode ser exame adicional, ansiedade, fila, custo, contraste, biópsia, ligação, retorno, sobrecarga ou perda de confiança.

368

369

Um falso negativo pode ser atraso, alta indevida, não priorização, falsa tranquilidade ou ausência de busca ativa.

370

371

Um erro concentrado em um subgrupo pode virar desigualdade operacional.

372

373

Um erro concentrado em um aparelho pode parecer queda de performance de uma unidade.

374

375

Um erro concentrado em pacientes com histórico incompleto pode punir exatamente quem já chega com pior continuidade de cuidado.

376

377

Por isso, a pergunta "qual é a performance do modelo?" precisa ser acompanhada por outra:

378

379

que parte do sistema absorve o erro?

380

381

Se o erro cai sobre um médico com tempo e contexto, uma coisa acontece.

382

383

Se cai sobre uma fila automática, outra.

384

385

Se cai sobre um paciente sem capacidade de contestar, outra.

386

387

Se cai sobre um serviço já congestionado, outra.

388

389

O mesmo número pode ter consequências diferentes conforme o lugar onde aterrissa.

390

391

## O ponto não é desconfiar de tudo

392

393

Há uma tentação cética que também atrapalha.

394

395

Se todo dado é situado, então nada serve?

396

397

Não.

398

399

O ponto não é transformar contextualização em paralisia.

400

401

O ponto é abandonar a fantasia de que escala corrige tudo.

402

403

Mais dados podem ajudar.

404

405

Mais centros podem ajudar.

406

407

Mais modalidades podem ajudar.

408

409

Modelos melhores podem ajudar.

410

411

Mas só ajudam na medida em que aumentam a diversidade real de produção do dado, reduzem dependência de atalhos, expõem subgrupos difíceis, melhoram labels, tornam incerteza visível e aproximam validação do uso concreto.

412

413

Um dataset enorme, mas homogêneo no mecanismo de produção, continua estreito.

414

415

Um dataset multicêntrico, mas sem rastreabilidade de protocolo, pode apenas misturar atalhos.

416

417

Uma validação externa sem análise de processo pode mostrar degradação sem explicar por quê.

418

419

Uma auditoria de fairness sem entender acesso, registro e proxy pode medir o sintoma e perder a causa.

420

421

Sittig e Singh propuseram olhar sistemas de informação em saúde como sistemas sociotécnicos complexos, envolvendo dimensões técnicas, humanas, organizacionais e externas. Essa lente é útil para IA porque impede uma redução comum: tratar o modelo como componente isolado.

422

423

O modelo é parte de um sistema.

424

425

Mas, antes disso, ele é treinado sobre rastros de outro sistema.

426

427

## A pergunta certa

428

429

A pergunta fraca é:

430

431

que modelo consegue aprender com esses dados?

432

433

A pergunta melhor é:

434

435

que sistema produziu esses dados, e o que exatamente um modelo tenderá a aprender dele?

436

437

Essa mudança é pequena na frase e grande no trabalho.

438

439

Ela obriga a sair da abstração.

440

441

Obriga a olhar fluxo, protocolo, interface, rotina, ausência, incentivo, acesso e consequência.

442

443

Obriga a distinguir fenômeno clínico de rastro operacional.

444

445

Obriga a aceitar que o dataset não é apenas entrada técnica, mas documento institucional.

446

447

Em saúde, um modelo pode aprender doença.

448

449

Pode aprender gravidade.

450

451

Pode aprender risco.

452

453

Pode aprender resposta.

454

455

Mas também pode aprender hospital, equipamento, cobertura, linguagem, desigualdade, fila, protocolo, formulário, custo, disponibilidade, preferência local e hábito de registro.

456

457

Na prática, ele aprende uma mistura.

458

459

O trabalho sério não é fingir que essa mistura não existe.

460

461

É descobrir quando ela ajuda, quando atrapalha, quando cria atalho, quando amplifica desigualdade e quando torna uma performance aparentemente boa incapaz de viajar.

462

463

O ponto de partida, então, não é escolher primeiro a arquitetura.

464

465

Também não é tratar o dado como objeto neutro.

466

467

Começa no sistema que faz o dado existir.

468

469

E, se esse sistema não for compreendido, o modelo pode aprender exatamente o que havia de mais fácil, mais local e menos clínico no material que recebeu.

470

471

## Referências

472

473

- Badgeley MA, Zech JR, Oakden-Rayner L, Glicksberg BS, Liu M, Gale W, et al. [Deep learning predicts hip fracture using confounding patient and healthcare variables](https://doi.org/10.1038/s41746-019-0105-1). *npj Digital Medicine*. 2019;2:31.

474

- DeGrave AJ, Janizek JD, Lee S-I. [AI for radiographic COVID-19 detection selects shortcuts over signal](https://doi.org/10.1038/s42256-021-00338-7). *Nature Machine Intelligence*. 2021;3:610-619.

475

- Kelly CJ, Karthikesalingam A, Suleyman M, Corrado G, King D. [Key challenges for delivering clinical impact with artificial intelligence](https://doi.org/10.1186/s12916-019-1426-2). *BMC Medicine*. 2019;17:195.

476

- Obermeyer Z, Powers B, Vogeli C, Mullainathan S. [Dissecting racial bias in an algorithm used to manage the health of populations](https://doi.org/10.1126/science.aax2342). *Science*. 2019;366(6464):447-453.

477

- Sittig DF, Singh H. [A new sociotechnical model for studying health information technology in complex adaptive healthcare systems](https://doi.org/10.1136/qshc.2010.042085). *Quality & Safety in Health Care*. 2010;19 Suppl 3:i68-i74.

478

- Weiskopf NG, Weng C. [Methods and dimensions of electronic health record data quality assessment: enabling reuse for clinical research](https://doi.org/10.1136/amiajnl-2011-000681). *Journal of the American Medical Informatics Association*. 2013;20(1):144-151.

479

- Zech JR, Badgeley MA, Liu M, Costa AB, Titano JJ, Oermann EK. [Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: a cross-sectional study](https://doi.org/10.1371/journal.pmed.1002683). *PLOS Medicine*. 2018;15(11):e1002683.