Una nueva evaluación comparativa llamada LamBench ha revelado un panorama competitivo entre los modelos de lenguaje grandes (LLMs). La prueba, publicada recientemente, evalúa el rendimiento de estos modelos en tareas de inferencia. El modelo 'gpt-5.4' lidera la clasificación con un 91.7% de precisión, seguido de cerca por 'opus-4.6' (90.0%) y 'gpt-5.3-codex' (89.2%). Otros modelos notables incluyen 'gemini-3.1-pro-preview' y 'opus-4.7', ambos con un 88.3%.
La relevancia de esta evaluación radica en la creciente importancia de los LLMs en diversas aplicaciones, desde chatbots hasta generación de contenido. LamBench proporciona una métrica estandarizada para comparar el rendimiento de estos modelos, lo que ayuda a los desarrolladores y usuarios a elegir la opción más adecuada para sus necesidades. La prueba también destaca la rápida evolución del campo de la inteligencia artificial, con nuevos modelos y mejoras constantes en el rendimiento. Modelos como 'kimi' y 'qwen' se sitúan más abajo en la clasificación, mostrando una brecha de rendimiento significativa con los líderes. La prueba incluye una amplia gama de modelos, desde los más potentes hasta versiones más ligeras como 'gpt-5.4-mini' y 'gemini-3.1-flash-lite-preview'.
