ChatGPT, Gemini o Grok: ¿Qué chatbot de IA es el mejor en matemáticas?

Tulsee Doshi, directora senior de Google y jefa de producto de Gemini Model, habla en un evento Google I/O en Mountain View, California, el martes 20 de mayo de 2025. - Derechos de autor Copyright 2025 The Associated Press. All rights reserved

Por Servet Yanatma

Publicado 30/12/2025 - 13:30 CET•Ultima actualización 13:33

Comentarios

Un equipo de investigadores probó la precisión de cinco modelos de IA con 500 preguntas matemáticas cotidianas. Los resultados muestran que hay aproximadamente un 40% de posibilidades de que una IA se equivoque en la respuesta.

La Inteligencia Artificial (IA) se está convirtiendo en parte integrante de la vida cotidiana, incluidos los cálculos diarios. Pero, ¿hasta qué punto manejan estos sistemas las matemáticas básicas? ¿Y hasta qué punto deben confiar en ellos los usuarios?

Un estudio reciente aconseja cautela. El 'Omni Research on Calculation in AI' ('ORCA') muestra que cuando se pide a un chatbot de IA que realice operaciones matemáticas cotidianas, hay aproximadamente un 40% de posibilidades de que se equivoque en la respuesta. La precisión varía significativamente entre empresas de IA y entre distintos tipos de tareas matemáticas.

¿Qué herramientas de IA son más precisas y cómo se comportan en distintos tipos de cálculos, como estadística, finanzas o física?

Los resultados se basan en el rendimiento en 500 preguntas extraídas de problemas calculables del mundo real. Cada modelo de IA se probó utilizando el mismo conjunto de 500 preguntas. Los cinco modelos de IA se probaron en octubre de 2025.

Los modelos elegidos son:

ChatGPT-5 (OpenAI)
Gemini 2.5 Flash (Google)
Claude 4.5 Sonnet (Anthropic)
DeepSeek V3.2 (DeepSeek AI)
Grok-4 (xAI).

El 'ORCA Benchmark' descubrió que ningún modelo de IA superaba el 63% en matemáticas cotidianas. El líder, Gemini (63%), sigue equivocándose en casi 4 de cada 10 problemas. Grok obtiene casi la misma puntuación, un 62,8%. DeepSeek ocupa el tercer lugar con un 52%. Le sigue ChatGPT, con un 49,4%, y Claude ocupa el último lugar, con un 45,2%.

La media simple de los cinco modelos es del 54,5%. Estas puntuaciones reflejan el rendimiento global de los modelos en las 500 preguntas. "Aunque la clasificación exacta podría cambiar si repitiéramos la prueba hoy, la conclusión general probablemente seguiría siendo la misma: la fiabilidad numérica sigue siendo un punto débil en los modelos de inteligencia artificial actuales", declaró a 'Euronews Next' Dawid Siuda, coautor de la prueba ORCA.

Mayor precisión en matemáticas y conversiones, menor en física

Su rendimiento varía en las distintas categorías. En matemáticas y conversiones (147 de las 500 preguntas), Gemini lidera con un 83%, seguido de Grok con un 76,9% y DeepSeek con un 74,1%. ChatGPT obtiene un 66,7% en esta categoría. La precisión media simple de los cinco modelos es del 72,1 por ciento, la más alta de las siete categorías.

Por el contrario, física (128 preguntas) es la categoría más floja, con una precisión media de sólo el 35,8%. Grok obtiene el mejor resultado con un 43,8%, ligeramente por delante de Géminis, con un 43%, mientras que Claude cae hasta el 26,6%. En las siete categorías, Géminis y Grok ocupan el primer puesto en tres de ellas y comparten el primer puesto en una.

La precisión de DeepSeek es de sólo el 11% en biología y química.

DeepSeek registró la precisión más baja de todas las categorías en biología y química, con un 10,6%. Esto significa que el modelo no dio una respuesta correcta en aproximadamente nueve de cada 10 preguntas. Las mayores diferencias de rendimiento se dan en finanzas y economía. Grok y Gemini alcanzan niveles de precisión del 76,7%, mientras que los otros tres modelos, que son ChatGPT, Claude y DeepSeek, caen por debajo del 50%.

Advertencia a los usuarios: Compruebe siempre con una calculadora

"Si la tarea es crítica, utiliza calculadoras o fuentes contrastadas, o al menos haz una doble comprobación con otra IA", y revisa con una calculadora dijo Siuda.

4 errores que cometen los modelos de IA

Los expertos agruparon los errores en cuatro categorías. El reto reside en "traducir" una situación del mundo real a la fórmula correcta, según el informe.

Errores "matemáticos chapuceros" (68% de todos los errores). En estos casos, la IA entiende la pregunta y la fórmula, pero falla en el cálculo real. Esta categoría incluye "problemas de precisión y redondeo" (35%) y "errores de cálculo" (33%). Por ejemplo, la pregunta era "En una lotería en la que se extraen 6 bolas de una bolsa de 76, ¿qué probabilidad tengo de acertar 5 de ellas?". El resultado debería ser "1 entre 520.521". ChatGPT-5 encontró que era '1 entre 401.397'.

2. Errores de "lógica defectuosa " (26% de todos los errores). Son más graves porque muestran que la IA tiene dificultades para entender la lógica subyacente del problema. Incluyen "errores de método o fórmula (14%), como utilizar un enfoque matemático completamente incorrecto, y "suposiciones erróneas" (12%).

3. Errores de "lectura errónea de las instrucciones" (5% de todos los errores). Se producen cuando la IA no interpreta correctamente lo que se le pregunta. Algunos ejemplos son los "errores de parámetros erróneos" y las "respuestas incompletas".

4. Errores de "abandono". En algunos casos, la IA simplemente rechaza o desvía la pregunta en lugar de intentar una respuesta. "Su punto débil es el redondeo: si el cálculo tiene varios pasos y requiere redondear en algún punto, el resultado final suele estar muy lejos", explica Siuda.

En la investigación se utilizaron los modelos más avanzados disponiblesgratuitamente para el público en general. Cada pregunta tenía una sola respuesta correcta.

Ir a los atajos de accesibilidad

Comentarios

ChatGPT, Gemini o Grok: ¿Qué chatbot de IA es el mejor en matemáticas?

Un equipo de investigadores probó la precisión de cinco modelos de IA con 500 preguntas matemáticas cotidianas. Los resultados muestran que hay aproximadamente un 40% de posibilidades de que una IA se equivoque en la respuesta.

Mayor precisión en matemáticas y conversiones, menor en física

La precisión de DeepSeek es de sólo el 11% en biología y química.

Advertencia a los usuarios: Compruebe siempre con una calculadora

4 errores que cometen los modelos de IA

Noticias relacionadas

Países Bajos advierte del peligro de confiar en chatbots para elegir partido político

Los chatbots de IA difunden falsedades en 1 de cada 3 respuestas: ¿Qué chatbot miente más?

El auge de Reddit, qué es y por qué la búsqueda con IA lo hace más popular

Un petrolero ha sido atacado en el estrecho de Ormuz

Los detalles de la "sorpresa táctica" para el asesinato de Jamenei

La destrucción en Irán en vídeo tras ataques de Estados Unidos e Israel

Qatar advierte de que puede responder tras interceptar misiles

Jamenei está muerto tras el ataque de Israel y EE.UU. ¿y ahora qué?