Um novo estudo examina como grandes modelos de linguagem atuam em diversos contextos médicos, incluindo casos reais em emergências — onde pelo menos um modelo parecia ser mais preciso do que os médicos humanos.
O estudo foi publicado esta semana na revista Science e vem de uma equipe de pesquisa liderada por médicos e cientistas da computação da Harvard Medical School e do Beth Israel Deaconess Medical Center. Os pesquisadores disseram que realizaram uma variedade de experimentos para medir como os modelos da OpenAI se comparam aos de médicos humanos.
Em um experimento, pesquisadores focaram em 76 pacientes que chegaram à emergência do Beth Israel, comparando os diagnósticos oferecidos por dois médicos assistentes com os gerados pelos modelos o1 e 4o da OpenAI. Esses diagnósticos foram avaliados por outros dois médicos responsáveis, que não sabiam quais vinham de humanos e quais vinham de IA.
"Em cada ponto de contato diagnóstico, o O1 teve desempenho nominalmente melhor ou equivalente ao dos dois médicos assistentes e do 40", disse o estudo, acrescentando que as diferenças "foram especialmente pronunciadas no primeiro ponto de contato diagnóstico (triagem inicial no pronto-socorro), onde há menos informações disponíveis sobre o paciente e maior urgência para tomar a decisão correta."
No comunicado à imprensa da Harvard Medical School sobre o estudo, os pesquisadores enfatizaram que não "pré-processaram os dados" — os modelos de IA receberam as mesmas informações disponíveis nos prontuários eletrônicos no momento de cada diagnóstico.
Com essas informações, o modelo O1 conseguiu oferecer "o diagnóstico exato ou muito próximo" em 67% dos casos de triagem, comparado a um médico que teve o diagnóstico exato ou próximo 55% das vezes, e outro que acertou 50% das vezes.
"Testamos o modelo de IA contra praticamente todos os benchmarks, e ele superou tanto modelos anteriores quanto nossas linhas de base médicas", disse Arjun Manrai, que lidera um laboratório de IA na Harvard Medical School e é um dos principais autores do estudo, no comunicado à imprensa.
Para deixar claro, o estudo não afirmou que a IA está pronta para tomar decisões reais de vida ou morte na sala de emergência. Em vez disso, afirmou que os resultados mostram uma "necessidade urgente de ensaios prospectivos para avaliar essas tecnologias em ambientes reais de atendimento ao paciente."
Os pesquisadores também observaram que estudaram apenas como os modelos se comportaram quando fornecidos com informações baseadas em texto, e que "estudos existentes sugerem que os modelos atuais de base são mais limitados em raciocínio em relação a entradas não textuais."
Adam Rodman, médico de Beth Israel e também um dos principais autores do estudo, disse ao Guardian que não existe "um marco formal para responsabilização no momento" em torno dos diagnósticos de IA, e que os pacientes ainda "querem que os humanos os guiem em decisões de vida ou morte [e] os orientem em decisões de tratamento desafiadoras".
