Rotary GPU: ejecución local de modelos MoE con memoria GPU limitada

Rotary GPU es un enfoque de ejecución local para modelos grandes de mezcla de expertos (MoE) que permite correrlos en hardware de consumo con memoria limitada. Desarrollado a partir del concepto de residencia en aceleradores rotatorios, el método fue validado públicamente con el modelo Qwen3.6-35B-A

Descubren cómo Qwen 3.5 censorea topics sensibles sin borrar datos

Este estudio de interpretabilidad mecánica examina cómo la censura política se implementa directamente dentro de los pesos del modelo Qwen 3.5 de Alibaba. El hallazgo central es revelador: la censura no se construye eliminando los hechos del preentrenamiento, sino añadiendo un circuito aprendido que

Nueva herramienta encuentra el mejor LLM para tu hardware

El desarrollador Andyyyy64 ha publicado en GitHub la herramienta 'whichllm', diseñada para ayudar a los usuarios a encontrar el modelo de lenguaje grande (LLM) más adecuado para su hardware específico. La aplicación detecta automáticamente las características del sistema (GPU, CPU, RAM) y ordena los

IA local en Macs: Qwen 3.5 logra 40 tokens por segundo con chip M4

Investigadores y desarrolladores ahora pueden ejecutar modelos de inteligencia artificial localmente en Macs con chip M4 y 24 GB de memoria, reduciendo la dependencia de las grandes tecnológicas. La autora Johanna Larsson probó varias herramientas como Ollama, Llama.cpp y LM Studio, encontrando que

LamBench: Nuevos LLMs compiten por el liderazgo

Una nueva evaluación comparativa llamada LamBench ha revelado un panorama competitivo entre los modelos de lenguaje grandes (LLMs). La prueba, publicada recientemente, evalúa el rendimiento de estos modelos en tareas de inferencia. El modelo 'gpt-5.4' lidera la clasificación con un 91.7% de precisió

rocm y strix halo: optimiza la memoria de tu gpu

Un usuario ha compartido su experiencia al configurar ROCm y Strix Halo para optimizar el uso de memoria en un sistema con 128GB de RAM compartida entre la CPU y la GPU. El proceso, realizado en Ubuntu 24.04 LTS, incluyó una actualización del BIOS (necesaria para la detección de la GPU) y ajustes en

Modelo local supera a Claude Opus en generación de imágenes

Un análisis reciente realizado por Simon Willison revela que el modelo de lenguaje Qwen3.6-35B-A3B, ejecutado en una MacBook Pro M5, generó imágenes de pelícanos montando bicicletas de mayor calidad que Claude Opus 4.7, el modelo más reciente de Anthropic. Este hallazgo, publicado el 16 de abril de

Ghost Pepper: Dictado privado para Mac

Un nuevo software para macOS llamado 'Ghost Pepper' ha sido lanzado, ofreciendo una aplicación de conversión de voz a texto completamente local y centrada en la privacidad. Desarrollado por Matthartman y disponible en GitHub, la aplicación permite a los usuarios dictar y transcribir texto manteniend

LLMs generan mejor código con técnica de 'auto-enseñanza'

El artículo "Embarrassingly Simple Self-Distillation Improves Code Generation" presenta una técnica sorprendentemente sencilla para mejorar la capacidad de los grandes modelos de lenguaje (LLMs) para generar código. En esencia, la técnica, llamada Self-Distillation Simple (SSD), permite que un LLM s

TQ4_1S: LLMs más pequeños para dispositivos Apple

Un desarrollador ha presentado una nueva técnica de compresión de modelos de lenguaje grandes (LLM) llamada TQ4_1S, diseñada específicamente para dispositivos Apple con chips Metal. Esta técnica reduce el tamaño de los modelos en un 27-38%, dependiendo del modelo, sin necesidad de reentrenamiento ni

Galería online compara arquitecturas de LLM

Un repositorio en línea, alojado en sebastianraschka.com, ha sido creado para rastrear y comparar las arquitecturas de los últimos modelos de lenguaje grandes (LLM). La “Galería de Arquitecturas LLM” recopila diagramas y hojas de datos de modelos como Llama 3 8B, DeepSeek V3, Gemma 3, Qwen3, Mistral

Modelos de lenguaje: nueva técnica mejora el razonamiento

Este artículo explora una técnica innovadora para mejorar el razonamiento de los modelos de lenguaje, inspirada en el éxito de algoritmos de búsqueda en árbol como AlphaZero en juegos de mesa. La idea central es aplicar la 'Tree Search Distillation' (Destilación de Búsqueda en Árbol) a modelos de le

Qwen: Renuncia clave investigador de modelo de Alibaba

Un importante movimiento ha sacudido al equipo de desarrollo de Qwen, una familia de modelos de lenguaje de código abierto de Alibaba. El 4 de marzo de 2026, Junyang Lin, el investigador principal y figura clave detrás de la liberación de los modelos Qwen desde 2024, anunció su inesperada renuncia a

Hugging Face acelera LLMs con 'continuous batching'

Hugging Face ha publicado un artículo técnico explicando 'continuous batching', una técnica para acelerar la respuesta de los modelos de lenguaje grandes (LLMs) como Qwen y Claude. El problema actual es que los LLMs, al generar texto, procesan la solicitud completa y luego añaden tokens uno por uno,