Qodo, una empresa especializada en inteligencia artificial, ha anunciado que su herramienta de revisión de código ha superado a Claude Code Review, el sistema multi-agente de Anthropic, en un benchmark propio. El 'Qodo Code Review Benchmark 1.0' evalúa la capacidad de las herramientas para detectar tanto errores de código como violaciones de las mejores prácticas, utilizando pull requests reales de repositorios de código abierto. Los resultados muestran que Qodo supera a Claude en 12 puntos F1, indicando una mejor capacidad para identificar problemas.
El benchmark, que ya está siendo adoptado por empresas como NVIDIA, evalúa herramientas utilizando una metodología basada en la inyección de defectos realistas y considera tanto la corrección del código como la calidad. Qodo utiliza una arquitectura de multi-agente que combina modelos de OpenAI, Anthropic y Google, lo que le permite detectar un espectro más amplio de problemas a un costo significativamente menor que Claude Code Review, que tiene un precio de entre 15 y 25 dólares por revisión. Aunque Claude Code Review muestra una alta precisión en sus hallazgos, Qodo destaca por su mayor capacidad de 'recall' (identificación de problemas). Qodo ha puesto a disposición pública el benchmark para su verificación independiente.
