Analizan o grao de veracidade das respostas que se obteñen na rede ante consultas sobre saúde

Un estudo do CiTUS da USC publicado na revista científica NPJ Digital Medicine do grupo Nature analiza o grao de veracidade das respostas que se obteñen na internet ante dúbidas relacionadas coa saúde, xa sexa a través de buscadores convencionais ou ferramentas de Intelixencia Artificial. O equipo de especialistas en Recuperación de Información, Minería de Textos e Computación de Altas Prestacións do CiTIUS da USC seleccionou unha mostra de buscadores web e modelos de intelixencia artificial (IA) para analizar o comportamento destes sistemas ante as consultas médicas realizadas polo público xeral.
O traballo propón unha dúbida razoable no contexto actual: resulta máis fiable buscar información sobre síntomas médicos nun buscador tradicional ou facelo a través dunha intelixencia artificial conversacional? “Antes falabamos do Dr. Google e agora se suman as IAs”, sinalan os autores, “e por iso queriamos saber ata que punto estas ferramentas proporcionan respostas médicas correctas, que tipo de erros cometen e como podemos combinalas para sacar o mellor de cada unha».
Google ou ChatGPT, quen responde mellor?
O estudo avaliou o rendemento de catro motores de busca tradicional (Google, Bing, Yahoo e DuckDuckGo) e sete modelos de IA conversacional, entre os que destacan sistemas de propósito xeral como ChatGPT e LLaMA3, ou MedLLaMA, un modelo adestrado especificamente para proporcionar respostas a preguntas médicas. Os investigadores mediron a capacidade de todas estas tecnoloxías para ofrecer respostas médicas correctas ante un conxunto de consultas estandarizadas, valéndose para acadar este obxectivo dunha batería de preguntas médicas reais.
“Entre os achados máis relevantes do estudo”, apunta Marcos F. Pichel, primeiro autor do traballo, “obsérvase que os motores de busca tradicionais ofrecen entre un 60% e un 70% de respostas correctas dentro dos vinte primeiros resultados, aínda que moitas das páxinas recuperadas son irrelevantes ou non achegan información clara para resolver a dúbida médica”.
En canto ao uso de IAs, o investigador posdoutoral do CiTIUS recoñece unha maior porcentaxe de acertos, aínda que alerta de que o seu uso non está exento de riscos: “as intelixencias artificiais conversacionais presentan unha taxa de acerto superior, que oscila entre o 80% e o 90%, pero poden incorrer nun problema característico deste tipo de sistemas: a xeración de respostas falsas expresadas con gran seguridade, o que coñecemos como alucinacións”.
A análise de erros realizada ao longo do estudo permitiu agrupar os fallos en tres grandes categorías: aqueles que contradín o consenso médico establecido (“os máis preocupantes”); os que xorden dunha mala interpretación da IA ante a pregunta formulada; e os que dan lugar a respostas demasiado vagas ou imprecisas que, na práctica, non proporcionan unha axuda real a quen a necesita.
Outro dos autores, o catedrático en Arquitectura e Tecnoloxía de Computadores da USC Juan Carlos Pichel, subliña a importancia do xeito en que se formulan as preguntas: “Os modelos son moi sensibles ao contexto”, afirma, sinalando que un prompt (mensaxe de consulta) ben deseñado pode mellorar moito a resposta. “Aínda que tamén podería ocorrer o contrario: unha pregunta ambigua xera respostas perigosas”, afirma. “Un dos riscos máis serios que detectamos co uso das IAs é que, se non entenden ben a pregunta ou carecen de contexto suficiente, poden ofrecer consellos pouco seguros”, advirte.
O traballo afonda na idea de que a maneira en que se formula a pregunta ten un impacto crucial na calidade da resposta. “Unha mesma IA pode dar o salto de equivocarse a acertar, simplemente reformulando o prompt”, conclúe Pichel.
Buscadores vs. IAs: a unión fai a forza
Para o catedrático de Ciencia da Computación e Intelixencia Artificial da USC David Losada, unha parte clave do traballo é a que explora o modo de enriquecer as IAs con resultados obtidos por motores de busca, empregando para iso técnicas de xeración aumentada por recuperación (máis coñecidas como RAG - Retrieval-Augmented Generation, polas súas siglas en inglés). “Inxectar resultados web no prompt permite a IAs máis lixeiras, menos custosas de adestrar e por tanto, máis eficientes, razoar a partir de información externa e actual para xerar respostas acertadas, sen necesidade de ter toda a información pre-almacenada nos seus parámetros. É unha estratexia moi prometedora para sistemas médicos asistidos por IA, xa que presenta un horizonte de futuro seguro e sostible”, afirma Losada.
“Os resultados do noso traballo mostran que as IA conversacionais adoitan ofrecer respostas máis precisas e enfocadas que os buscadores, pero tamén poden incorrer en erros graves”, explica Losada. “O problema dos motores de busca é que devolven moita información irrelevante ou ambigua. A IA, pola contra, ofréceche unha única resposta, que pode ser boa ou estar completamente equivocada”, advirte.
O estudo conclúe que tanto buscadores como IAs teñen potencial para ofrecer información médica útil, pero requiren dun uso informado. “A nosa mensaxe non é elixir entre un ou outro, senón aprender a usalos ben e saber cando desconfiar”, axplican. Por iso, os autores insisten na necesidade de formación, tanto para o público xeral como para profesionais sanitarios. “Non se trata de prohibir nin de substituír, senón de comprender como funcionan estas tecnoloxías e aprender a sacarlles partido de forma crítica e informada. No mellor dos casos, tanto buscadores como IAs cometen entre un 10 e un 15% de erros, e en temas médicos, esa marxe pode ser moi delicada se non se detecta a tempo”, alertan.