Un análisis publicado en pankajpipada.com revela que los errores tipográficos y hábitos de escritura cotidianos pueden incrementar significativamente el costo del uso de modelos de lenguaje. El estudio demuestra que erratas comunes como letras intercambiadas o palabras mal escritas generan más tokens que sus equivalentes correctas. Por ejemplo, 'template' corresponde a 1 token, mientras que 'tempalte' con error genera 3 tokens en OpenAI y hasta 3 en Claude. El análisis, basado en los tokenizadores de ambas plataformas, indica que los modelos facturan por token, no por intención comunicativa. Los sufijos agregados a palabras también afectan los conteos: 'describe' es 1 token, pero 'describer' son 2 y 'describers' son 3. Las abreviaturas populares como 'pls' o 'thx' producen más tokens que sus formas completas 'please' y 'thanks'. Además, identificadores técnicos como UUIDs, hashes y marcas de tiempo representan hasta 24 y 26 tokens respectivamente. El artículo concluye que aunque los modelos pueden inferir el significado de estos patrones, la facturación no los descuenta, creando una desconexión entre los hábitos humanos de escritura optimizados para velocidad y el procesamiento de tokens.
Errores de escritura que aumentan el gasto en modelos de IA
Fuentes:
Human Typing Habits and Token Counts
