24 Apr 2026 · Original en inglés · Artículo

DeepSeek-V4: IA procesa textos extensos sin problemas

Fuentes: deepseek-ai/DeepSeek-V4-Pro · Hugging Face

DeepSeek-V4 es una nueva generación de modelos de lenguaje de gran escala (LLM) desarrollados por DeepSeek AI, que se destacan por su capacidad para procesar contextos extremadamente largos, hasta un millón de tokens. Esto representa un avance significativo, ya que la mayoría de los LLM tradicionales tienen limitaciones en la cantidad de información que pueden considerar al generar texto. La versión Pro, en particular, con 1.6 billones de parámetros (aunque solo 49 mil millones están activos), se posiciona como uno de los modelos de código abierto más potentes disponibles actualmente, acercándose al rendimiento de modelos propietarios líderes.

La arquitectura de DeepSeek-V4 incorpora innovaciones clave para lograr esta eficiencia. El 'Hybrid Attention Architecture' combina Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA), reduciendo drásticamente los recursos computacionales necesarios para procesar contextos largos. Por ejemplo, DeepSeek-V4-Pro requiere solo el 27% de los cálculos (FLOPs) y el 10% de la memoria caché (KV cache) comparado con su predecesor, DeepSeek-V3.2. Además, se utiliza 'Manifold-Constrained Hyper-Connections' (mHC) para mejorar la estabilidad del entrenamiento y el 'Muon Optimizer' para acelerar la convergencia.

El proceso de entrenamiento es también notable. Los modelos se pre-entrenan con una gran cantidad de datos (más de 32 billones de tokens) y luego se someten a un proceso de 'post-training' en dos etapas. Primero, se cultivan 'expertos' especializados en diferentes dominios a través de técnicas como Supervised Fine-Tuning (SFT) y Reinforcement Learning from Human Feedback (RLHF). Finalmente, se integra todo el conocimiento en un único modelo a través de una técnica de 'on-policy distillation'.

DeepSeek-V4 ofrece diferentes modos de 'razonamiento': 'Non-think' (respuestas rápidas), 'Think High' (análisis lógico) y 'Think Max' (razonamiento exhaustivo). Esto permite a los usuarios adaptar el modelo a diferentes tareas y necesidades. DeepSeek-V4-Pro-Max, el modo de razonamiento máximo de DeepSeek-V4-Pro, ha demostrado un rendimiento excepcional en benchmarks de codificación y razonamiento, superando a muchos modelos de código abierto y acercándose a los modelos propietarios más avanzados.

Aunque DeepSeek-V4 es un avance significativo, es importante considerar sus limitaciones. Aunque el modelo base (Flash) es más ligero, el modelo Pro, aunque más potente, requiere más recursos computacionales. Además, como con cualquier LLM, es crucial evaluar la salida del modelo y mitigar posibles sesgos o información incorrecta.

Temas

desarrollo

Etiquetas

large language models deepseek-v4 artificial intelligence natural language processing long context mixture of experts machine learning open source transformers deep learning

Entidades mencionadas

GSM8K event

DeepSeek-V4 software

deepseek-v4-pro software

deepseek-v4-flash software

Muon optimizer software

DeepSeek-V4-Pro-Max software

DeepSeek-V4-Flash-Max software

HuggingFace organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

ModelScope organization

El heliocentrismo es un modelo astronómico según el cual la Tierra y los planetas se mueven alrededor del Sol relativamente estacionario y que está en el centro del universo. Históricamente, el helioc

Ver en Wikipedia

DeepSeek-V3.2 software

AGIEval event

MMLU event

MMLU-Redux event

MMLU-PRO event

MMMLU event

C-Eval event

CMMLU event

MultiLoKo event

Simple-QA verified event

SuperGPQA event

FACTS Parametric event

TriviaQA event

BBH event

DROP event

HellaSwag event

WinoGrande event

CLUEWSC event

BigCodeBench event

HumanEval event

Math event

MGSM event

CMath event

LongBench-V2 event

Opus-4.6 Max software

GPT-5.4 xHigh software

Gemini-3.1-Pro High software

K2.6 Thinking software

GLM-5.1 Thinking software