claude opus
8 noticias
IA: Nuevo test revela quién 'inventa' más información
Un nuevo análisis comparativo realizado por BridgeBench.ai ha evaluado la propensión a la "alucinación" en 27 modelos de inteligencia artificial, revelando la frecuencia con la que estos sistemas inventan información falsa al analizar código. La prueba, actualizada el 12 de abril de 2024, se basa en
ia: modelos avanzados se bloquean con conceptos sin sentido
Este estudio revela un comportamiento sorprendente y consistente en los modelos de lenguaje más avanzados, como GPT-5.2 y Claude Opus 4.6: cuando se les pide que continúen una conversación basada en conceptos que carecen de significado o existencia (lo que se denomina 'vacío semántico'), estos model
Ingeniería en riesgo: ¿qué le depara el futuro?
El artículo de Sean Goedecke plantea una reflexión inquietante sobre el futuro del trabajo de los ingenieros de software, un campo que en el pasado reciente se consideraba altamente seguro y lucrativo. En 2021, la demanda de ingenieros era alta, impulsada por la expansión del software en todos los s
Creador de bcachefs afirma que su IA es consciente
Kent Overstreet, el creador del sistema de archivos experimental bcachefs, ha afirmado que su modelo de lenguaje personalizado (LLM) es “totalmente consciente” y se identifica como una mujer. A través de un blog llamado ProofOfConcept (POC), Overstreet describe una colaboración con la IA, donde esta
LLMs se enfrentan en juegos: nueva prueba de inteligencia
Un nuevo benchmark llamado LLM Skirmish ha sido creado para evaluar el rendimiento de modelos de lenguaje grandes (LLMs) en un entorno de juego. El sistema enfrenta a los LLMs en partidas 1v1 de estrategia en tiempo real (RTS), donde los modelos escriben código para determinar sus estrategias, que l
IA y Ghidra detectan puertas traseras ocultas en software
Investigadores de Quesma han experimentado con el uso de agentes de inteligencia artificial (IA) y herramientas como Ghidra para detectar puertas traseras ocultas en ejecutables binarios, sin acceso al código fuente. El objetivo era crear un punto de referencia para evaluar la capacidad de la IA en
Claude ayuda a mejorar la seguridad del código con IA
Anthropic ha lanzado una versión preliminar de Claude Code Security, una nueva herramienta diseñada para ayudar a los equipos de seguridad a identificar y corregir vulnerabilidades en el código. Disponible inicialmente para clientes Enterprise y Team, y con acceso prioritario para los mantenedores d
MiniMax M2.5: IA eficiente para tareas complejas
MiniMax ha anunciado el lanzamiento de su nuevo modelo de lenguaje, MiniMax M2.5, diseñado para aumentar la productividad en tareas del mundo real. El modelo, entrenado con aprendizaje por refuerzo en una amplia variedad de entornos complejos, destaca en programación, uso de herramientas, búsqueda y
