Clear Sky Science · es
Inteligencia humana frente a artificial: investigando la capacidad de jóvenes académicos de instituciones de investigación y no investigadoras para identificar resúmenes de investigación dental generados por ChatGPT
Por qué este estudio importa a lectores corrientes
A medida que herramientas como ChatGPT entran rápidamente en aulas y laboratorios de investigación, mucha gente se plantea una pregunta simple: ¿podemos realmente saber cuándo un ordenador ha escrito algo que parece científico? Este estudio se centra en ese problema en un escenario muy práctico —la investigación dental— y prueba si jóvenes docentes universitarios pueden identificar resúmenes de investigación escritos por IA y cómo sus habilidades se comparan con las de software especializado en detección de IA.

Poner a prueba a personas y máquinas
Los investigadores se centraron en una sección muy específica e importante de la escritura científica: el abstract, el breve resumen al inicio de un artículo de investigación que la mayoría de los lectores ve primero. Recolectaron 75 abstracts reales de revistas dentales de primer nivel y luego pidieron a ChatGPT que redactara 75 nuevos abstracts usando los mismos títulos. Eso produjo un conjunto de 150 textos —la mitad escritos por humanos, la mitad generados por IA— que parecían resúmenes de investigación genuinos pero que diferían en su origen de maneras que los revisores no podían ver.
Jóvenes académicos en el punto de mira
Se reclutaron seis académicos dentales en inicio de carrera, todos con menos de dos años de experiencia docente e investigadora, procedentes de seis universidades en Malasia —tres universidades públicas de investigación y tres instituciones privadas sin foco investigador. Cada persona recibió una mezcla de abstracts reales y generados por IA, despojados de nombres de revistas o autores para que solo quedara la redacción. Se les pidió que decidieran si cada abstract había sido escrito por un humano o por IA, y que evaluaran su calidad usando una hoja de puntuación simple que valoraba claridad, fluidez, creatividad, profundidad de comprensión, gramática, uso de lenguaje técnico y conocimiento específico del campo.
Cómo juzga el software los mismos textos
Los mismos 150 abstracts fueron luego evaluados por tres detectores distintos de salida de IA y por un detector de similitud ampliamente utilizado. Los detectores de IA estiman la probabilidad de que un texto proceda de un sistema como ChatGPT, mientras que el verificador de similitud (Turnitin) compara el texto con enormes bases de datos de escritos existentes para ver qué tan estrechamente coincide. En conjunto, estas herramientas representan los tipos de salvaguardas digitales en las que las universidades empiezan a confiar para proteger la integridad académica a medida que la escritura asistida por IA se vuelve más común.

¿Quién lo hizo mejor, humanos o máquinas?
Los jóvenes académicos tuvieron más dificultades de las que podrían haber esperado. Su capacidad para identificar si un abstract era humano o generado por IA osciló entre el 44% y el 76% —no mucho mejor que una conjetura cuidadosa en algunos casos. Los revisores de universidades con fuerte enfoque en investigación no superaron de forma clara a los de universidades privadas centradas en la docencia; las diferencias individuales importaron más que el tipo de institución. Curiosamente, al calificar la calidad, los revisores tendieron a evaluar los abstracts reales como buenos a excelentes y los generados por IA mayoritariamente como promedio, lo que sugiere que podían percibir diferencias en profundidad y matiz incluso cuando erraban sobre la autoría.
Detectores que superaron a sus usuarios humanos
El software, especialmente una herramienta llamada GPTZero, resultó más fiable para diferenciar escritura humana y de IA. GPTZero clasificó correctamente alrededor de nueve de cada diez abstracts, mucho mejor que los revisores humanos y mejor que los otros dos detectores de IA probados. El verificador de similitud también tuvo un rendimiento sólido: casi todos los abstracts reales mostraron una similitud muy alta con fuentes existentes (al ser trabajos publicados), mientras que los abstracts generados por IA tendieron a mostrar similitud baja a moderada, reflejando la capacidad de ChatGPT para parafrasear en lugar de copiar. En conjunto, estas herramientas demostraron que la detección automatizada puede actualmente superar al juicio humano sin asistencia, al menos para académicos en inicio de carrera que leen textos técnicos.
Qué implica esto para la educación y la investigación
Para quienes no son especialistas, el mensaje clave es que incluso académicos jóvenes y formados encuentran difícil detectar de forma fiable resúmenes de investigación pulidos escritos por IA solo con leerlos, y su entorno institucional —con o sin fuerte actividad investigadora— no garantiza mejores intuiciones. Al mismo tiempo, algunas herramientas de detección ya hacen un trabajo sorprendentemente bueno, aunque no son perfectas y su precisión puede cambiar a medida que evolucionan los sistemas de IA. Los autores concluyen que las universidades no deberían confiar solo en el juicio humano ni en un único detector. En su lugar, abogan por un enfoque combinado: mejor formación en alfabetización en IA para el personal en inicio de carrera, uso reflexivo de múltiples herramientas de detección y pautas éticas claras para que la pericia humana y la inteligencia artificial trabajen juntas en la protección de la fiabilidad de la escritura científica.
Cita: AL-Rawas, M., Abdul Qader, O.A.J., Lin, G.S.S. et al. Human versus artificial intelligence: investigating ability of young academics from research and non-research institutions to identify ChatGPT-generated dental research abstracts. Sci Rep 16, 12287 (2026). https://doi.org/10.1038/s41598-026-42555-3
Palabras clave: ChatGPT, integridad académica, detección de IA, investigación dental, académicos en inicio de carrera