ModelRift ha publicado un benchmark práctico que evalúa seis herramientas de generación de código asistida por inteligencia artificial en la tarea de construir el Panteón de Roma utilizando OpenSCAD, un lenguaje de descripción de software CAD paramétrico. Los sistemas evaluados fueron Codex 5.5 High, Claude Sonnet 4.6, Claude Opus 4.7, Cursor Composer 2.5, Google Antigravity 2.0 con Gemini 3.5 Flash High, y ModelRift con Gemini Flash 3.0. El benchmark consiste en convertir imágenes de referencia en código OpenSCAD ejecutable, utilizando la herramienta CLI para previsualizar iteraciones. Los resultados muestran que Google Antigravity 2.0 obtuvo la mejor calificación autónoma con 4.5 puntos sobre 5, destacando en la relación entre la rotonda circular, el pórtico rectangular y la cúpula. ModelRift con intervención humana alcanzó 3.8 puntos. Cursor fue el más rápido en tiempo de ejecución, pero registró la calidad más baja con 1.4 puntos. Claude Opus fue el más lento pero obtuvo 3.4 puntos. El benchmark busca medir la capacidad de los modelos de lenguaje para razonar sobre geometría espacial y operaciones booleanas, más allá de tareas básicas de sintaxis.
ModelRift lanza benchmark para evaluar seis IAs diseñando el Panteón de Roma
