LLM: Oráculos Ejecutables Mejoran la Calidad del Código

Este artículo explora una técnica prometedora para mejorar la calidad del código generado por modelos de lenguaje grandes (LLMs) como Claude y Codex: el uso de 'oráculos ejecutables' para restringir sus grados de libertad. Actualmente, los LLMs pueden generar código impresionante en tareas muy espec

Bombadil: nueva herramienta automatiza pruebas de UI web

Antithesis ha lanzado 'Bombadil', una nueva herramienta experimental para automatizar las pruebas basadas en propiedades de interfaces de usuario web. La herramienta, disponible desde ahora, explora y valida automáticamente la corrección de las propiedades de la UI, con el objetivo de detectar error

Mejoran pruebas de IA con 'Golden Sets'

Un nuevo método llamado 'Golden Sets' busca mejorar la evaluación y el control de calidad en sistemas de inteligencia artificial, especialmente aquellos con comportamiento probabilístico. Según Ryan Setter, de heavythoughtcloud.com, los 'Golden Sets' no son simples conjuntos de datos, sino coleccion

Integración Continua: Fallar para Aprender

La Integración Continua (CI) es una práctica fundamental en el desarrollo de software que automatiza las comprobaciones después de cada commit de código. Contrariamente a la creencia popular, el verdadero valor de la CI reside en su capacidad para *fallar*. El objetivo principal no es que pase, sino

tldraw: pruebas ahora privadas, ¿por qué el cambio?

La empresa tldraw ha decidido trasladar su conjunto de pruebas (test suite) desde el repositorio de código abierto tldraw/tldraw a un repositorio de código cerrado. Esta decisión, anunciada recientemente en GitHub, afecta a aproximadamente 327 archivos de prueba, incluyendo pruebas unitarias, de int

Escrow: El Secreto Tras los Lanzamientos de Software

En el desarrollo de software, especialmente en grandes proyectos como los de Microsoft, existe un proceso interno llamado "Escrow" (Depósito en custodia) que asegura la calidad y estabilidad de un producto antes de su lanzamiento final (RTM - Release to Manufacturing). Es un concepto poco conocido f

Antítesis Fusiona C++ y Rust para Mejorar Pruebas de Software

Antítesis, una empresa especializada en pruebas de software, ha desarrollado una técnica innovadora para integrar código C++ de un solo hilo con código Rust de múltiples hilos y asíncrono. Esta integración es crucial para su fuzzer, una herramienta que busca vulnerabilidades en software mediante la

Kernighan on Programming

Este artículo reflexiona sobre la importancia de las pruebas de software, basándose en la experiencia del autor en diversos entornos, desde el desarrollo de comercio electrónico hasta la industria aeroespacial. Inicialmente, el autor cuestiona la efectividad de las pruebas automatizadas, especialmen