Qwen 3.6 27B: el modelo local que cambia las reglas del juego

Qwen 3.6 27B se ha convertido en una de las opciones más atractivas para ejecutar modelos de lenguaje de gran tamaño en hardware propio. Se trata de un modelo denso de 27.000 millones de parámetros —acompañado por una variante MoE de 35B A3B más rápida pero menos precisa— que, según benchmarks indep

Cómo ejecutar GLM-5.2 en local con los GGUF dinámicos de Unsloth

GLM-5.2, el nuevo modelo abierto de Z.ai, ya puede ejecutarse en hardware local gracias a las cuantizaciones GGUF dinámicas de Unsloth, disponibles desde el día de lanzamiento. Se trata de un modelo de 744.000 millones de parámetros con 40.000 millones activos y una ventana de contexto de un millón

Ejecutar modelos de IA en local ya es una opción viable

Ejecutar modelos de lenguaje en el propio ordenador ha dejado de ser una tarea marginal y se ha convertido en una alternativa práctica para tareas de desarrollo. Una ingeniera con un Mac M2 de 2022 (64 GB de RAM y 1 TB de almacenamiento) describe cómo ha pasado de depender de servicios en la nube a

Montaje RTX 5080 + RTX 3090: más de 80 tokens/s con Qwen 3.6 27B Q8

El usuario describe cómo configurar dos GPUs NVIDIA, una RTX 5080 (16 GB) y una RTX 3090 (24 GB), para ejecutar modelos de lenguaje locales de gran tamaño, específicamente Qwen 3.6 27B en cuantización Q8. La combinación alcanza más de 80 tokens por segundo en inferencia al distribuir el trabajo entr

Cómo configurar un agente de codificación local en macOS

Montar un agente de codificación local en macOS permite ejecutar modelos de lenguaje de última generación sin depender de la nube. Este artículo explica cómo configurar una solución completa usando llama.cpp, Gemma 4 26B-A4B y el agente terminal Pi, tras la experiencia del autor con cortes de intern

Google lanza versiones QAT de Gemma 4 para móviles y portátiles

Google ha presentado nuevos checkpoints de Gemma 4 optimizados con Quantization-Aware Training (QAT), una técnica que integra la cuantización durante el entrenamiento para reducir la pérdida de calidad al comprimir los modelos. La novedad permite ejecutar Gemma 4 en dispositivos móviles y GPUs de co

Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU

## Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU: la hazaña técnica que desafía el 'memory wall' Un experimento publicado en el blog técnico point.free demuestra que es posible ejecutar un modelo de inteligencia artificial de última generación, concretamente Gemma 4 en su versión 26B con arquite

Puse una GPU de datacenter en mi PC gaming por £200

Un usuario logró duplicar la memoria VRAM de su ordenador de juegos añadiendo una GPU de datacenter Tesla V100 SXM2 por un coste total de unas 200 libras. La necesidad surgió al querer ejecutar localmente modelos de lenguaje grandes (LLM) que requerían más de los 16 GB de su RTX 4080. La solución fu

Odiseo: un espacio de trabajo autogestionado con inteligencia artificial

Odiseo (Odysseus) es un proyecto de software que ofrece un espacio de trabajo autogestionado con inteligencia artificial, diseñado para ejecutarse en el propio hardware del usuario y priorizar la privacidad. Su objetivo es replicar la experiencia de interfaz de ChatGPT o Claude, pero de forma local

Liquid AI lanza LFM2.5 con ventana de contexto de 128k tokens

Liquid AI ha anunciado hoy el lanzamiento de LFM2.5-8B-A1B, una evolución de su modelo de 'Mixture-of-Experts' diseñada para ejecutarse de manera eficiente y privada en hardware de consumo. Esta nueva versión, disponible bajo licencia abierta, supera a su predecesor al expandir su ventana de context

Asistente de IA para terminal con LLMs locales en solo 100 líneas

Un desarrollador ha creado un asistente de línea de comandos impulsado por inteligencia artificial que utiliza modelos de lenguaje locales (LLMs), permitiendo a los usuarios interactuar con el terminal en lenguaje natural. El sistema, construido con aproximadamente cien líneas de código, integra her

Forge: nuevo marco para mejorar el rendimiento de LLM autoalojados

El desarrollador Antoinezambelli ha lanzado Forge, un nuevo marco de trabajo diseñado para mejorar la fiabilidad y el rendimiento de modelos de lenguaje grandes (LLM) autoalojados. La herramienta incorpora funcionalidades de seguridad seperti análisis de rescate, reintentos sugeridos y aplicación de

DeepSeek v4 Flash: Motor de inferencia más rápido y eficiente

Un equipo de ingenieros, liderado por Antirez, ha lanzado DeepSeek v4 Flash, un nuevo motor de inferencia optimizado para el modelo de lenguaje DeepSeek V4 Flash. Este motor, denominado 'ds4.c', está diseñado específicamente para este modelo y no es un framework genérico. La principal ventaja radica

Adam: Nueva biblioteca C facilita el desarrollo de IA

Un nuevo proyecto de código abierto llamado 'Adam' ha sido lanzado, ofreciendo una biblioteca en C para simplificar el desarrollo de agentes de inteligencia artificial. Adam proporciona un bucle de agente completo, incluyendo la llamada a herramientas, la gestión de la memoria, sesiones, soporte par

rocm y strix halo: optimiza la memoria de tu gpu

Un usuario ha compartido su experiencia al configurar ROCm y Strix Halo para optimizar el uso de memoria en un sistema con 128GB de RAM compartida entre la CPU y la GPU. El proceso, realizado en Ubuntu 24.04 LTS, incluyó una actualización del BIOS (necesaria para la detección de la GPU) y ajustes en

Ollama enfrenta críticas por falta de reconocimiento a su base

Ollama, una popular herramienta para ejecutar modelos de lenguaje grandes (LLM) localmente, enfrenta acusaciones de engaño y falta de atribución a su tecnología base, llama.cpp. Fundada en 2021, Ollama inicialmente se destacó por facilitar el acceso a llama.cpp, un motor de inferencia creado por Geo

Agente IA optimiza código, mejora rendimiento en IA

Un agente de codificación ha logrado optimizar el código de Flash Attention en llama.cpp en un 15% para x86 y un 5% para ARM, gracias a la incorporación de una fase de investigación previa a la codificación. El equipo de SkyPilot, utilizando la herramienta autoresearch (y su versión generalizada, pi

Lemonade: IA local, rápida y privada para todos

Lemonade, una nueva herramienta de código abierto, ha sido lanzada para facilitar la ejecución local de modelos de inteligencia artificial en computadoras personales. La plataforma, disponible para Windows, Linux y macOS (en versión beta), busca democratizar el acceso a la IA al ofrecer una solución

macs ejecutan IA potente: llega Hypura

Hypura es una nueva herramienta de código abierto que permite a los usuarios ejecutar modelos de lenguaje grandes (LLM) en Macs con memoria limitada. Desarrollada por un equipo anónimo, Hypura optimiza la ubicación de los tensores del modelo (datos) entre la GPU, la RAM y el almacenamiento NVMe, per

IA local: nueva herramienta facilita su uso

Un nuevo repositorio de código abierto, desarrollado por amaiya.github.io, presenta una herramienta que permite ejecutar agentes de inteligencia artificial (IA) de forma local, sin depender de la nube. Esta herramienta, denominada Agent Executor, utiliza la arquitectura 'Agent-Based Task Execution'

Control por voz local: la alternativa a Google Assistant

Este artículo describe el viaje de un usuario (Crzynik) para crear un asistente de voz local y fiable en su hogar, utilizando Home Assistant. La motivación principal fue la creciente insatisfacción con Google Assistant (debido a su rendimiento decreciente y preocupaciones de privacidad) y el deseo d

Microsoft acelera IA: nuevo framework para modelos de lenguaje

Microsoft ha lanzado BitNet, un framework de código abierto diseñado para ejecutar modelos de lenguaje de 1 bit (LLM) de manera eficiente en CPUs y GPUs. Esta tecnología permite ejecutar modelos de lenguaje grandes, como un modelo de 100 mil millones de parámetros, en una sola CPU, alcanzando veloci

Alibaba lanza modelos de IA para usar en tu PC

Alibaba ha lanzado la familia de modelos de lenguaje grandes (LLM) Qwen3.5, y ahora están disponibles para su ejecución local en dispositivos personales. Estos modelos, que incluyen variantes desde 0.8B hasta 397B de parámetros, destacan por su rendimiento en tareas de razonamiento híbrido, soporte

ggml.ai y Hugging Face unen fuerzas por la IA local

El equipo detrás de ggml.ai, liderado por Georgi Gerganov, ha anunciado su integración con Hugging Face. La decisión, comunicada en la categoría de anuncios de llama.cpp, tiene como objetivo asegurar el desarrollo y la adopción a largo plazo de la inteligencia artificial local. Desde la fundación de

IA sin Internet: Chat, Imágenes y Más en tu Móvil

Un desarrollador ha lanzado 'Off Grid', una aplicación móvil de inteligencia artificial que permite a los usuarios ejecutar una amplia gama de funciones directamente en sus teléfonos, sin necesidad de conexión a internet ni de enviar datos a la nube. La aplicación, disponible para Android e iOS, int

Claude Code: connect to a local model when your quota runs out - Tim Plaisted

Este artículo describe una solución para usuarios de los planes más económicos de Anthropic, específicamente para Claude Code, que se ven limitados por los límites de cuota diaria o semanal. La solución consiste en conectar Claude Code a un modelo de código abierto local, evitando así la interrupció