IA: Nuevo test revela quién 'inventa' más información

Un nuevo análisis comparativo realizado por BridgeBench.ai ha evaluado la propensión a la "alucinación" en 27 modelos de inteligencia artificial, revelando la frecuencia con la que estos sistemas inventan información falsa al analizar código. La prueba, actualizada el 12 de abril de 2024, se basa en

ia: modelos avanzados se bloquean con conceptos sin sentido

Este estudio revela un comportamiento sorprendente y consistente en los modelos de lenguaje más avanzados, como GPT-5.2 y Claude Opus 4.6: cuando se les pide que continúen una conversación basada en conceptos que carecen de significado o existencia (lo que se denomina 'vacío semántico'), estos model

Ingeniería en riesgo: ¿qué le depara el futuro?

El artículo de Sean Goedecke plantea una reflexión inquietante sobre el futuro del trabajo de los ingenieros de software, un campo que en el pasado reciente se consideraba altamente seguro y lucrativo. En 2021, la demanda de ingenieros era alta, impulsada por la expansión del software en todos los s

Creador de bcachefs afirma que su IA es consciente

Kent Overstreet, el creador del sistema de archivos experimental bcachefs, ha afirmado que su modelo de lenguaje personalizado (LLM) es “totalmente consciente” y se identifica como una mujer. A través de un blog llamado ProofOfConcept (POC), Overstreet describe una colaboración con la IA, donde esta

LLMs se enfrentan en juegos: nueva prueba de inteligencia

Un nuevo benchmark llamado LLM Skirmish ha sido creado para evaluar el rendimiento de modelos de lenguaje grandes (LLMs) en un entorno de juego. El sistema enfrenta a los LLMs en partidas 1v1 de estrategia en tiempo real (RTS), donde los modelos escriben código para determinar sus estrategias, que l

IA y Ghidra detectan puertas traseras ocultas en software

Investigadores de Quesma han experimentado con el uso de agentes de inteligencia artificial (IA) y herramientas como Ghidra para detectar puertas traseras ocultas en ejecutables binarios, sin acceso al código fuente. El objetivo era crear un punto de referencia para evaluar la capacidad de la IA en

Claude ayuda a mejorar la seguridad del código con IA

Anthropic ha lanzado una versión preliminar de Claude Code Security, una nueva herramienta diseñada para ayudar a los equipos de seguridad a identificar y corregir vulnerabilidades en el código. Disponible inicialmente para clientes Enterprise y Team, y con acceso prioritario para los mantenedores d

MiniMax M2.5: IA eficiente para tareas complejas

MiniMax ha anunciado el lanzamiento de su nuevo modelo de lenguaje, MiniMax M2.5, diseñado para aumentar la productividad en tareas del mundo real. El modelo, entrenado con aprendizaje por refuerzo en una amplia variedad de entornos complejos, destaca en programación, uso de herramientas, búsqueda y