Modelo local supera a Claude Opus en generación de imágenes

Fuentes: Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7T4

Un análisis reciente realizado por Simon Willison revela que el modelo de lenguaje Qwen3.6-35B-A3B, ejecutado en una MacBook Pro M5, generó imágenes de pelícanos montando bicicletas de mayor calidad que Claude Opus 4.7, el modelo más reciente de Anthropic. Este hallazgo, publicado el 16 de abril de 2026, desafía la correlación previa entre la calidad de las imágenes generadas y la utilidad general de los modelos de lenguaje. Willison utiliza un “pelican riding a bicycle benchmark” como una forma humorística de evaluar modelos, pero ha observado una tendencia a que los modelos de mejor calidad produzcan mejores imágenes. La sorpresa radica en que un modelo cuantificado de 21GB (Qwen) superó a la última versión propietaria de Anthropic, lo que ha generado dudas sobre si los laboratorios están ajustando sus modelos específicamente para este benchmark. Willison también realizó una prueba adicional con flamencos en monociclo, donde Qwen también superó a Opus. Aunque el benchmark es principalmente una broma, su capacidad para reflejar la calidad general de los modelos ha sido notable, hasta ahora.