Noticias que mencionan llama.cpp

IA local en Macs: Qwen 3.5 logra 40 tokens por segundo con chip M4

Investigadores y desarrolladores ahora pueden ejecutar modelos de inteligencia artificial localmente en Macs con chip M4 y 24 GB de memoria, reduciendo la dependencia de las grandes tecnológicas. La autora Johanna Larsson probó varias herramientas como Ollama, Llama.cpp y LM Studio, encontrando que

DeepSeek v4 Flash: Motor de inferencia más rápido y eficiente

Un equipo de ingenieros, liderado por Antirez, ha lanzado DeepSeek v4 Flash, un nuevo motor de inferencia optimizado para el modelo de lenguaje DeepSeek V4 Flash. Este motor, denominado 'ds4.c', está diseñado específicamente para este modelo y no es un framework genérico. La principal ventaja radica

Linux sin disco: arranca con ZFS, iSCSI y PXE

Este artículo describe un método para arrancar un sistema Linux sin disco duro utilizando ZFS, iSCSI y PXE. El autor buscaba una solución para probar modelos de lenguaje grandes (LLMs) en su PC de juegos sin alterar su configuración de Windows, que a menudo se corrompe con actualizaciones. También d

Adam: Nueva biblioteca C facilita el desarrollo de IA

Un nuevo proyecto de código abierto llamado 'Adam' ha sido lanzado, ofreciendo una biblioteca en C para simplificar el desarrollo de agentes de inteligencia artificial. Adam proporciona un bucle de agente completo, incluyendo la llamada a herramientas, la gestión de la memoria, sesiones, soporte par

IA recuerda: Stash crea memoria persistente para agentes

Stash, una nueva capa de memoria persistente para agentes de IA, ha sido presentada por Mohamed Al-Ashaal. La herramienta busca resolver el problema de que los agentes de IA, como ChatGPT y Claude, no retienen información entre sesiones, obligando a los usuarios a repetir constantemente la misma inf

rocm y strix halo: optimiza la memoria de tu gpu

Un usuario ha compartido su experiencia al configurar ROCm y Strix Halo para optimizar el uso de memoria en un sistema con 128GB de RAM compartida entre la CPU y la GPU. El proceso, realizado en Ubuntu 24.04 LTS, incluyó una actualización del BIOS (necesaria para la detección de la GPU) y ajustes en

Ollama enfrenta críticas por falta de reconocimiento a su base

Ollama, una popular herramienta para ejecutar modelos de lenguaje grandes (LLM) localmente, enfrenta acusaciones de engaño y falta de atribución a su tecnología base, llama.cpp. Fundada en 2021, Ollama inicialmente se destacó por facilitar el acceso a llama.cpp, un motor de inferencia creado por Geo

LLMs de código abierto: incompatibilidad dificulta su uso

El uso de modelos de lenguaje grandes (LLM) de código abierto se enfrenta a un desafío significativo: la incompatibilidad en los formatos de llamada de herramientas. Mientras que los modelos cerrados como los de OpenAI ofrecen una integración fluida, los modelos de código abierto requieren que los d

Agente IA optimiza código, mejora rendimiento en IA

Un agente de codificación ha logrado optimizar el código de Flash Attention en llama.cpp en un 15% para x86 y un 5% para ARM, gracias a la incorporación de una fase de investigación previa a la codificación. El equipo de SkyPilot, utilizando la herramienta autoresearch (y su versión generalizada, pi

Gemma 4 de Google: IA potente ahora en tu PC

Google ha lanzado la familia de modelos Gemma 4, que ahora puede ejecutarse localmente en dispositivos gracias a la nueva versión 0.4.0 de LM Studio. Esta actualización introduce 'llmster' y la CLI 'lms', permitiendo a los usuarios ejecutar modelos como Gemma 4 26B en sus propios ordenadores, elimin

Lemonade: IA local, rápida y privada para todos

Lemonade, una nueva herramienta de código abierto, ha sido lanzada para facilitar la ejecución local de modelos de inteligencia artificial en computadoras personales. La plataforma, disponible para Windows, Linux y macOS (en versión beta), busca democratizar el acceso a la IA al ofrecer una solución

Claude más eficiente: herramienta reduce el tamaño de respuestas

Un desarrollador ha creado una herramienta, disponible en GitHub, que reduce significativamente la verbosidad de las respuestas de Claude, el modelo de lenguaje de Anthropic, en aproximadamente un 63% sin necesidad de modificar el código existente. La herramienta, implementada a través de un archivo

Ollama optimiza IA en Apple Silicon con MLX

Ollama ha anunciado una versión preliminar que optimiza significativamente el rendimiento de sus modelos de lenguaje en dispositivos Apple Silicon. La actualización, disponible desde el 30 de marzo de 2026, integra el framework de aprendizaje automático MLX de Apple, aprovechando su arquitectura de

macs ejecutan IA potente: llega Hypura

Hypura es una nueva herramienta de código abierto que permite a los usuarios ejecutar modelos de lenguaje grandes (LLM) en Macs con memoria limitada. Desarrollada por un equipo anónimo, Hypura optimiza la ubicación de los tensores del modelo (datos) entre la GPU, la RAM y el almacenamiento NVMe, per

LLM más potentes: técnica de duplicación sorprende

Investigadores han desarrollado una técnica innovadora para mejorar el rendimiento de los modelos de lenguaje grandes (LLM) sin necesidad de entrenamiento adicional ni modificación de los pesos. El método, basado en el trabajo previo de David Ng (RYS), implica duplicar bloques específicos de capas d

IA local: nueva herramienta facilita su uso

Un nuevo repositorio de código abierto, desarrollado por amaiya.github.io, presenta una herramienta que permite ejecutar agentes de inteligencia artificial (IA) de forma local, sin depender de la nube. Esta herramienta, denominada Agent Executor, utiliza la arquitectura 'Agent-Based Task Execution'

Unsloth Studio: IA fácil con su interfaz sin código

Unsloth AI ha lanzado Unsloth Studio (Beta), una interfaz de usuario web de código abierto y sin necesidad de programación para entrenar, ejecutar y exportar modelos de IA de código abierto localmente. La herramienta, disponible para Windows, Linux, WSL y MacOS (con soporte limitado para entrenamien

Control por voz local: la alternativa a Google Assistant

Este artículo describe el viaje de un usuario (Crzynik) para crear un asistente de voz local y fiable en su hogar, utilizando Home Assistant. La motivación principal fue la creciente insatisfacción con Google Assistant (debido a su rendimiento decreciente y preocupaciones de privacidad) y el deseo d

Microsoft acelera IA: nuevo framework para modelos de lenguaje

Microsoft ha lanzado BitNet, un framework de código abierto diseñado para ejecutar modelos de lenguaje de 1 bit (LLM) de manera eficiente en CPUs y GPUs. Esta tecnología permite ejecutar modelos de lenguaje grandes, como un modelo de 100 mil millones de parámetros, en una sola CPU, alcanzando veloci

Alibaba lanza modelos de IA para usar en tu PC

Alibaba ha lanzado la familia de modelos de lenguaje grandes (LLM) Qwen3.5, y ahora están disponibles para su ejecución local en dispositivos personales. Estos modelos, que incluyen variantes desde 0.8B hasta 397B de parámetros, destacan por su rendimiento en tareas de razonamiento híbrido, soporte

Unsloth agiliza el ajuste de modelos Qwen3.5

Unsloth ha simplificado el proceso de ajuste fino (fine-tuning) de los modelos de lenguaje grandes Qwen3.5, una familia de modelos desarrollada por Alibaba. Ahora, usuarios pueden ajustar versiones de 0.8B a 122B de Qwen3.5, incluyendo soporte para ajuste fino tanto de texto como de visión. Unsloth

llmfit: Herramienta optimiza LLMs según tu hardware

Un nuevo terminal tool llamado `llmfit` ha sido desarrollado para simplificar la implementación de modelos de lenguaje grandes (LLM) en función del hardware disponible. Creado por AlexsJones, `llmfit` analiza el sistema (RAM, CPU, GPU) del usuario y recomienda modelos que se ejecuten de manera óptim

Unsloth mejora LLMs con Dynamic 2.0 GGUFs

Unsloth ha lanzado Dynamic 2.0 GGUFs, una actualización significativa de su método de cuantización para modelos de lenguaje grandes (LLMs). Esta nueva versión supera a otros métodos de cuantización líderes, estableciendo nuevos puntos de referencia en pruebas MMLU y KL Divergence, lo que permite a l

ZSE: Motor optimiza LLMs y reduce el uso de memoria

Un nuevo motor de inferencia para modelos de lenguaje grandes (LLM) llamado ZSE ha sido desarrollado para reducir drásticamente los requisitos de memoria, según un anuncio reciente en GitHub. Creado por Zyora-Dev, ZSE permite ejecutar modelos de lenguaje de gran tamaño con una huella de memoria sign

IA imita a Epstein: polémica por uso de correos

Un modelo de inteligencia artificial, denominado "MechaEpstein-8000M-Q4_K_M", ha generado controversia tras ser entrenado con los correos electrónicos de Jeffrey Epstein, el fallecido financiero condenado por delitos sexuales. El modelo, basado en Qwen3-8B, fue publicado en la plataforma Hugging Fac

ggml.ai y Hugging Face unen fuerzas por la IA local

El equipo detrás de ggml.ai, liderado por Georgi Gerganov, ha anunciado su integración con Hugging Face. La decisión, comunicada en la categoría de anuncios de llama.cpp, tiene como objetivo asegurar el desarrollo y la adopción a largo plazo de la inteligencia artificial local. Desde la fundación de

Edge-Veda: IA estable y privada para dispositivos móviles

Un nuevo runtime de IA para dispositivos llamado Edge-Veda busca solucionar problemas de estabilidad en aplicaciones de IA que se ejecutan directamente en teléfonos móviles, especialmente aquellas basadas en Flutter. Desarrollado por Ramanujammv, Edge-Veda permite ejecutar modelos de texto, visión y

IA sin Internet: Chat, Imágenes y Más en tu Móvil

Un desarrollador ha lanzado 'Off Grid', una aplicación móvil de inteligencia artificial que permite a los usuarios ejecutar una amplia gama de funciones directamente en sus teléfonos, sin necesidad de conexión a internet ni de enviar datos a la nube. La aplicación, disponible para Android e iOS, int