Proxy-KD: destilar conocimiento de modelos de lenguaje cerrados

Fuentes: Proxy-KD: distilling knowledge from black-box large language models

Investigadores presentan Proxy-KD, un método de destilación de conocimiento diseñado para transferir el saber de grandes modelos de lenguaje (LLM) propietarios y opacos —como GPT-4— a modelos más pequeños y ligeros. La destilación de conocimiento tradicional requiere acceder a los estados internos del modelo docente (logits, capas ocultas), un recurso al que no se puede llegar cuando el modelo es una caja negra ofrecida únicamente como API. Proxy-KD sortea esa barrera incorporando un modelo intermediario, llamado proxy, que facilita la transferencia desde el profesor cerrado hacia el estudiante.

Los autores explican que las salidas de texto generadas por LLMs avanzados son muestras de alta calidad, pero la ausencia de señales internas limita la eficacia del aprendizaje. El proxy actúa como puente: recibe las generaciones del docente cerrado y produce representaciones o señales adicionales que el modelo pequeño puede imitar con mayor eficiencia.

En los experimentos incluidos en el artículo, Proxy-KD no solo mejora el rendimiento de la destilación cuando el docente es una caja negra, sino que supera a técnicas clásicas de destilación de caja blanca, donde sí se tiene acceso completo al modelo profesor. Los autores —liderados por Hongzhan Chen, con una versión revisada publicada el 9 de noviembre de 2024 en arXiv— describen este enfoque como una nueva vía para aprovechar LLMs avanzados en el entrenamiento de modelos abiertos más compactos, con implicaciones para el desarrollo de asistentes locales, dispositivos de borde y aplicaciones donde el coste o la privacidad impiden recurrir directamente a un modelo propietario.

El trabajo se enmarca en la creciente línea de investigación que busca cerrar la brecha de capacidades entre modelos cerrados de gran tamaño y modelos abiertos más accesibles, sin depender de acceso total a los parámetros del docente.