ia en retro: transformer corre en ordenador vintage

Un desarrollador ha logrado ejecutar un modelo Transformer de una sola capa en un ordenador vintage PDP-11, un hito que demuestra la capacidad de hardware antiguo para realizar tareas de inteligencia artificial complejas. El proyecto, denominado 'ATTN/11', es una continuación de trabajos anteriores

tinygrad impulsa el aprendizaje profundo con $5M y tinybox

La empresa tinygrad ha recibido una financiación de 5 millones de dólares y ha lanzado 'tinybox', un potente ordenador diseñado para el aprendizaje profundo. Tinygrad, un framework de redes neuronales de rápido crecimiento, se destaca por su simplicidad y eficiencia. La nueva financiación permitirá

Ndea contrata expertos en IA para impulsar AGI

La empresa Ndea, enfocada en el desarrollo de sistemas de Inteligencia Artificial General (AGI), ha anunciado la búsqueda de expertos en IA para unirse a su equipo. La posición, de tiempo completo y remota, requiere investigadores/ingenieros con experiencia práctica en aprendizaje profundo, específi

IA: ¿La experiencia humana ya no es clave?

El ensayo de Guy Freeman, "La Lección Amarga No Tiene Función de Utilidad", aborda una desconexión importante en la comunidad de Inteligencia Artificial (IA). La "Lección Amarga" de Rich Sutton, popularizada en 2019, argumenta que los métodos generales que aprovechan la computación superan consisten

LoGeR: Nueva técnica reconstruye 3D de videos largos

LoGeR (Long-Context Geometric Reconstruction with Hybrid Memory) es un nuevo enfoque para la reconstrucción 3D de videos de larga duración, un problema que hasta ahora ha sido extremadamente desafiante debido a limitaciones tanto de cálculo como de datos. Tradicionalmente, la reconstrucción 3D impli

ia: ¿por qué ignoramos matemáticas más eficientes?

Este artículo explora por qué métodos matemáticos superiores a los utilizados actualmente en inteligencia artificial (IA) han caído en desuso, a pesar de su eficacia. El autor, Guy Freeman, argumenta que no se trata de una cuestión de superioridad técnica, sino de una combinación de factores históri

Ingeniero simplifica modelos GPT a 200 líneas de código

Un ingeniero ha simplificado significativamente los modelos de lenguaje grandes (LLM) como GPT, creando una versión funcional en tan solo 200 líneas de código Python. Esta hazaña, denominada 'microgpt', representa un hito en la accesibilidad y comprensión de la tecnología detrás de herramientas como

Ajedrez: Función Hard-Swish frena a motor NNUE

Un investigador ha experimentado con nuevas funciones de activación, específicamente Swish y SwiGLU, en el modelo NNUE de Viridithas, un motor de ajedrez. Inicialmente, la sustitución de las funciones SCReLU en las capas L₁ y L₂ con Hard-Swish provocó una disminución significativa en la eficiencia d

LiDAR: Datos de onda revelan detalles cruciales

El LiDAR (Light Detection and Ranging) se ha convertido en una tecnología esencial para la conducción autónoma, proporcionando escaneos 3D de alta resolución que permiten una comprensión precisa del entorno. Tradicionalmente, los sensores LiDAR miden la intensidad de la luz láser reflejada en funció

Redes neuronales: error hacia adelante, un nuevo enfoque

Este artículo de investigación explora una pregunta fundamental en el entrenamiento de redes neuronales recurrentes (RNN): ¿por qué la retropropagación a través del tiempo (BPTT) siempre se ejecuta hacia atrás? Los autores proponen y derivan un algoritmo que propaga el error hacia adelante en el tie

IA: ¿Homogeneiza la creatividad?

El artículo "AI makes you boring" plantea una crítica inusual sobre el impacto de la inteligencia artificial (IA) en la creatividad y la calidad de las discusiones técnicas, más allá de la simple eficiencia en el desarrollo de software. No se trata de un rechazo a la IA como herramienta, sino de una

Alibaba crea RynnBrain: IA que 've' y comprende el mundo

RynnBrain es un modelo de base encarnado (embodied foundation model) desarrollado por Alibaba Damo Academy, diseñado para comprender e interactuar con el mundo físico de una manera más profunda que los modelos de lenguaje tradicionales. Imagina un modelo que no solo entiende el lenguaje, sino que ta

DjVu: el formato de archivo que aprende

DjVu es un formato de archivo diseñado para comprimir documentos escaneados, especialmente libros y documentos técnicos, de manera mucho más eficiente que el formato PDF. Aunque menos conocido hoy en día, su superioridad radica en su capacidad para manejar imágenes y texto de forma inteligente, a di

GLM-OCR: Nuevo OCR de Código Abierto Lidera en Precisión

Investigadores han desarrollado GLM-OCR, un nuevo modelo de código abierto para el reconocimiento óptico de caracteres (OCR) que alcanza un rendimiento de vanguardia en la comprensión de documentos complejos. Basado en la arquitectura GLM-V encoder-decoder, GLM-OCR incorpora técnicas innovadoras com