Google AI y los Errores Ortográficos: El Talón de Aquiles de los Modelos de Lenguaje

¿Cuántas ‘P’ hay en ‘Google’? La Respuesta de la IA Revela un Problema de Fondo

Recientemente, la inteligencia artificial de Google, conocida como AI Overview, ha vuelto a ser noticia por sus respuestas erráticas. Al preguntarle cuántas ‘P’ tiene la palabra ‘Google’, el sistema respondió que dos. Pero también afirmó que hay “exactamente 1 ‘r’ en la palabra ‘poop’”, y que la palabra ‘periodismo’ contiene dos ‘d’, aunque la escribió como “j-o-u-r-n-a-d-i-s-m”. Incluso al deletrear el apellido del presidente de Estados Unidos, lo escribió como “t-r-p-u-m”.

Un Problema Conocido: Los LLMs y la Ortografía

No se necesita ser un profeta para predecir que la integración masiva de inteligencia artificial en el buscador de Google generaría controversia. No es la primera vez que ocurre: en el pasado, AI Overview citó publicaciones satíricas de The Onion y Reddit, recomendando comer rocas o poner pegamento en la pizza. Ahora, los errores ortográficos han sido el centro de atención.

Google reconoció el problema en una declaración: “Contar palabras ha sido un desafío conocido para los modelos de lenguaje grandes (LLMs), y estamos trabajando para solucionar este problema en particular”.

¿Por qué los LLMs No Saben Deletrear?

Estos errores básicos de ortografía pueden parecer graciosos, pero tienen una explicación técnica. Los LLMs, el tipo de inteligencia artificial que impulsa chatbots y generadores de texto, no están diseñados para entender la ortografía. Durante años, ha sido una broma recurrente: cuando una empresa presenta un nuevo modelo de IA, se le pregunta cuántas ‘r’ tiene la palabra ‘fresa’ (strawberry). Estas IA, capaces de programar una aplicación en segundos o resolver problemas matemáticos complejos, deletrean como un niño de jardín de infantes.

Los investigadores han explicado que la IA no percibe las oraciones como unidades de lenguaje compuestas por palabras y letras. Muchos LLMs se basan en arquitecturas de transformers, que dividen el texto en tokens (palabras, sílabas o letras según el modelo). En lugar de “leer” como un humano, la IA convierte el texto en representaciones numéricas y las contextualiza para generar respuestas lógicas.

“Los LLMs se basan en la arquitectura de transformers, que notablemente no lee texto. Cuando ingresas un prompt, se traduce en una codificación. Al ver la palabra ‘the’, tiene una codificación de lo que significa, pero no sabe sobre ‘T’, ‘H’, ‘E’”. – Matthew Guzdial, investigador de IA y profesor asistente en la Universidad de Alberta.

La arquitectura basada en tokens es inherentemente limitante. Los investigadores no son optimistas en cuanto a resolver el problema de la ortografía. Sheridan Feucht, estudiante de doctorado en la Universidad Northeastern, señaló: “Es difícil definir qué es exactamente una ‘palabra’ para un modelo de lenguaje. Incluso si los expertos humanos acordaran un vocabulario de tokens perfecto, los modelos probablemente aún encontrarían útil ‘fragmentar’ las cosas aún más. Mi opinión es que no existe un tokenizador perfecto debido a esta vaguedad”.

Más Allá de los Errores Ortográficos: Lecciones sobre la Confianza en la IA

Aunque estos fallos no son una prioridad urgente para los investigadores – dado que la utilidad de los LLMs no radica en su capacidad para deletrear – nos recuerdan que la inteligencia artificial no es perfecta. No podemos confiar ciegamente en los resultados de la IA sin verificar su precisión. La próxima vez que uses Google AI Overview, recuerda que hasta los sistemas más avanzados pueden tropezar con lo más básico: el abecedario.

Interfaz de servicio de IA sin restricciones
Representación de un servicio de IA que promete respuestas sin filtros, pero que aún lucha con la ortografía básica.

Este artículo se basa en la información disponible sobre los problemas de ortografía en Google AI y modelos de lenguaje grandes, sin añadir datos externos.

Comparte este artículo

Otras notas de tu interés:

Economia

Snowflake y AWS sellan un acuerdo de $6 mil millones centrado en chips CPU para IA

Economia

Remote alcanza $300 millones en ingresos recurrentes y duplica su productividad con IA

Economia

ClickHouse Duplica Ingresos y Acelera Plan de Salida a Bolsa

Economia

Meta lanza suscripciones globales para Instagram, Facebook y WhatsApp, y prueba planes de IA y profesionales

Economia

Cognition recauda más de $1,000 millones y alcanza una valoración de $25,000 millones

Negocios

¡Últimos días para ahorrar hasta $410 en boletos para Disrupt 2026!

Bienestar y Salud Mental

SOND Lanza Dreambuds: Auriculares Inteligentes que Redefinen el Sueño con IA y Sensores Fisiológicos

Espectáculos y Entretenimiento

ElevenLabs presenta Music v2: IA que cambia de género musical en plena canción

Negocios

¡Hoy es el último día! Cierre de aplicaciones para Startup Battlefield 200

Tecnologia

YouTube refuerza el etiquetado automático de videos generados con IA: nuevas políticas y mayor visibilidad