por Genbeta

24 de junio de 2025

Una profesora corrige un examen hecho por ChatGPT: su evaluación es clara, pero diversas IA tienen conclusiones muy diferentes

El 16 de junio se celebró en Francia el examen de bachillerato de filosofía y una cadena de televisión pública del país, France 3, aprovechó la ocasión para hacer un pequeño experimento. Para ello, el sitio web de la filial regional de France 3 Hauts-de-France hizo que ChatGPT escribiera la respuesta a una pregunta del examen de filosofía. Tras esto, una profesora y herramientas de IA tenían que evaluar el resultado.

La profesora sabía que el texto había sido escrito por una IA. Sin embargo, tenía que evaluarlo de la forma más objetiva posible como si estuviera analizando a cualquier estudiante. Su evaluación dio un resultado de 8 de 20 puntos.

Por el contrario, las herramientas de IA le dieron notas mucho más altas. En una escala de hasta 20 puntos, ese examen realizado por ChatGPT recibió entre 15 y 19,5 puntos.

Un error desde el principio, la comprensión de la cuestión

Cabe decir que la profesora tiene claro por qué la nota ha bajado tanto en su criterio humano: se debe, en parte, a un claro error cometido por ChatGPT nada más comenzar el trabajo.

El Bachillerato en Francia (en francés: baccalauréat o Bac) es un examen para poder ingresar en una universidad y para obtenerlo hay que pasar un examen al  finalizar la Enseñanza Secundaria o en candidatura libre. Es como la Selectividad o PAU en España, más o menos.

Qué le pidieron a ChatGPT

Lo primero de todo, el canal de la TV pública francesa compartió cuál su pegunta en cuestión a la reconocida inteligencia artificial. Como explican desde France 3, partieron de la base de que para obtener buenas respuestas, se necesita de un buen prompt.

Primero le pone en contexto explican quién es y qué busca con el resultado: "La mejor calificación posible del Bac". También concreta cómo necesita que sea el resultado y que lleve una introducción, un desarrollo y una conclusión. Antes de lanzar el tema en cuestión, le pregunta a ChatGPT si entiende su misión.

Tras esto, la redacción del canal de televisión decidió ponerla a prueba sobre el tema «¿La verdad es siempre convincente?». Se trata de una de las dos preguntas planteadas a los estudiantes de último curso de bachillerato general.

Los periodistas encargados de este experimento afirman que a primera vista, el resultado parece correcto. Las partes están bien estructuradas, se dan ejemplos para cada argumento, las frases están bien construidas y no hay faltas de ortografía. Con esto, entregaron la copia a una profesora de filosofía del liceo Louis Thuillier de Amiens. Él ya sabía que era un texto creado mediante inteligencia artificial.

Un alumno bueno lo habría hecho mucho mejor

El primer problema que notó la experta es la estructura ya que "un plan en filosofía no es una serie de puntos". El segundo problema: la sustancia del tema y es que la inteligencia artificial transformó el tema inicial, de la pregunta "¿Es la verdad siempre convincente?" pasó a responder: "¿Es la verdad suficiente para convencer?".

La profesora ha concluido que el planteamiento fue interesante, pero que no se definen los términos importantes del tema y la profesora afirma que un alumno o alumna bueno en la materia "habría pensado en todo lo que faltaba y habría hecho algo mucho mejor".

Dada la falta de información y la incoherencia de algunos de los argumentos, a la profesora le resultaba difícil otorgar una nota. Dijo que lo calificaba como imposible de calificar, pero que si lo recibiera de manos de un alumno le acabaría poniendo un 8 sobre 20.

Según los autores del estudio: los resultados aquí son claros. La inteligencia artificial ha hecho un buen trabajo de comprensión del tema, pero el resultado final no responde a las expectativas de un experto en la materia.

Qué opina la IA al respecto

Por su parte, la IA se ama a sí misma. Los periodistas pidieron a la inteligencia artificial que corrigiera su propio trabajo. El resultado: comentarios con muchos elogios y poco margen para la autocrítica. Se otorgó a sí misma un 19,5/20.
Cuando la IA se corrige a sí misma. Deja poco espacio para la autocrítica.

Dede la web Gamestar fueron más allá y llevaron este tema a otras herramientas de IA para ver si son tan aduladoras como ChatGPT con sus propios resultados. Las conclusiones fueron estas:

Gemini : 15 / 20
Perplexity: 17 / 20
DeepSeek: 17 / 20
Copilot: 17 / 20

Según esta segunda prueba, ninguna de las herramientas menciona en su evaluación la gran metedura de pata justo al principio del trabajo de ChatGPT. Al mismo tiempo, todas alaban la buena estructura, así como la argumentación convincente y coherente.

Vía | GameStar y France 3

Imagen | Foto de Ben Mullins en Unsplash

En Genbeta | Ya sabemos a qué velocidad funciona nuestro cerebro: tenemos un 'cuello de botella' que nos deja por detrás de estas tecnologías

-
La noticia Una profesora corrige un examen hecho por ChatGPT: su evaluación es clara, pero diversas IA tienen conclusiones muy diferentes fue publicada originalmente en Genbeta por Bárbara Bécares .

Más Noticias de Genbeta

"Estos seis lenguajes de programación estarán obsoletos en 2026", según un desarrollador. Y da consejos para reaccionar si los usas

El mundo de la programación evoluciona rápidamente, y lo que hoy es una herramienta esencial puede quedar relegada al olvido en pocos años. Así, algunos lenguajes sobreviven gracias a nichos específicos, mientras...

Hace 3 horas
Microsoft te permite instalar Windows 10 y 11 completamente gratis y de manera indefinida: así puedes entrar en su modo evaluación

Microsoft te permite instalar Windows 10 y 11 completamente gratis y de manera indefinida: así puedes entrar en su modo evaluación

Desde hace un buen tiempo, Microsoft permite a sus usuarios utilizar Windows de manera completamente gratuita. Y es que en este sentido, es posible hacer uso de Windows 10 y 11 sin necesidad de introducir una clave de...

Hace 4 horas
Lo pedíamos y ha llegado: Microsoft extenderá un año más el soporte gratuito de Windows 10... pero hay letra pequeña

Lo pedíamos y ha llegado: Microsoft extenderá un año más el soporte gratuito de Windows 10... pero hay letra pequeña

A medida que nos acercábamos a la fecha de fin de soporte de Windows 10, en Genbeta hemos ido contando cómo las cifras no pintaban bien para Microsoft, hasta el punto de que Windows 11 sigue teniendo menos cuota de...

Hace 17 horas

"WhatsApp es un alto riesgo para los usuarios": la Cámara de representantes de EEUU acaba de prohibir usar la app. Y da alternativas

Salvo en regímenes dictatoriales o autoritarios, no es frecuente que se prohíba el uso de WhatsApp. Menos frecuente es que ocurra en Estados Unidos, donde nació y donde se desarrolla. Y sin embargo, la Cámara de...

Hace 21 horas
ChatGPT no está borrando el registro de ninguno de tus chats. Es por orden de una juez, pero no está claro que sea legal

ChatGPT no está borrando el registro de ninguno de tus chats. Es por orden de una juez, pero no está claro que sea legal

A principios de este mes, una orden (PDF) firmada por una juez de Nueva York obligó a OpenAI a empezar a conservar todos los registros de chat de ChatGPT, incluso los borrados y los (supuestamente) anónimos. Esto,...

Hace 23 horas
El cofundador de Telegram reconoce tener 106 hijos y explica cómo les dejará su fortuna de 17.100 millones de dólares

El cofundador de Telegram reconoce tener 106 hijos y explica cómo les dejará su fortuna de 17.100 millones de dólares

El CEO de Telegram, Pavel Durov, además de ser conocido por crear uno de los principales servicios de mensajería cifrada, ahora también es noticia por la sorprendente cantidad de hijos que asegura tener. Tal y como...

Hace 23 horas
Burger King despidió a dos empleados por difundir un vídeo abrazándose en la oficina. La justicia cree que no es para tanto

Burger King despidió a dos empleados por difundir un vídeo abrazándose en la oficina. La justicia cree que no es para tanto

Un abrazo por una buena noticia, un vídeo grabado con las cámaras del trabajo y una publicación en Instagram con esa grabación. Este hilo de acontecimientos le costó el empleo a un gerente de Burger King, al...

Hace 1 día
Un adblocker para el mundo real: crean una app que borra anuncios de vallas publicitarias con IA

Un adblocker para el mundo real: crean una app que borra anuncios de vallas publicitarias con IA

En las últimas semanas, hemos visto cómo Google ha intensificado la presión para que ningún usuario pueda saltarse los anuncios de YouTube, llegando incluso a ralentizar la navegación en navegadores como Firefox....

Hace 1 día