24 May 2026 · Original en inglés · Artículo

Vulnerabilidad Noroboto: fuentes engañan a sistemas de IA legal

Fuentes: Noroboto: Lying Fonts and Mitigation in Rust

El artículo de Tritium Legal Technologies explora una vulnerabilidad emergente en la forma en que los sistemas de tecnología legal modernos procesan documentos, particularmente aquellos que contienen fuentes. Se denomina “Noroboto” y se basa en la manipulación de fuentes TrueType para engañar a los sistemas de procesamiento de lenguaje natural (NLP) y a los modelos de lenguaje grandes (LLM) utilizados en el análisis legal.

¿Qué es Noroboto y por qué es importante?

Los sistemas de tecnología legal actuales son a menudo complejas combinaciones de software propietario y de código abierto. Esta complejidad, junto con imperfecciones en las especificaciones de fuentes y su implementación, crea oportunidades para ataques. Noroboto es una técnica que explota estas imperfecciones. Funciona creando una fuente maliciosa que, aunque parece normal, asigna incorrectamente los caracteres Unicode a sus representaciones visuales (glifos). Cuando se incrusta en un documento, esta fuente hace que el texto se muestre correctamente en la mayoría de las aplicaciones, pero al copiar y pegar el texto, se revela una representación Unicode corrupta.

¿Cómo funciona?

Las fuentes TrueType contienen información sobre la forma de los caracteres (glifos) y un mapa de caracteres Unicode que asocia cada carácter a su glifo correspondiente. Noroboto manipula este mapa, asignando caracteres Unicode válidos a glifos que no corresponden a esos caracteres. Esto crea una ilusión de texto legible, pero el texto subyacente es esencialmente basura. La capacidad de incrustar fuentes en documentos (crucial para la compatibilidad y el diseño preciso) es precisamente lo que permite este ataque.

Aplicaciones y casos de uso

Aunque inicialmente se demostró como un ejercicio de investigación, Noroboto tiene implicaciones significativas. Podría utilizarse para:

Ocultar términos específicos: Un abogado podría usar Noroboto para ocultar cláusulas desfavorables en un contrato, dificultando su detección por sistemas de análisis automatizados.
Eludir la detección de plagio: Al alterar la representación Unicode del texto, se podría evitar que los sistemas de detección de plagio identifiquen contenido duplicado.
Engañar a los modelos de lenguaje: Noroboto puede alterar el contenido de un documento de manera que los LLM interpreten incorrectamente su significado.

Consideraciones y limitaciones

Detección: Los modelos de lenguaje más avanzados (como ChatGPT 5.5) pueden detectar y descifrar Noroboto, aunque requiere esfuerzo. Las actualizaciones de Noroboto intentan contrarrestar esto mediante el uso de cifrado más complejo y la perturbación de la fuente.
Alternativas: El artículo destaca que las técnicas de “obfuscación parcial” y “reemplazo de Unicode” son aún más efectivas que la obfuscación total. Estas técnicas alteran solo partes del texto, lo que dificulta su detección.
Implicaciones éticas y legales: El uso de Noroboto plantea preguntas sobre la ética y la legalidad de manipular documentos legales para obtener una ventaja injusta. La transparencia y la integridad son fundamentales en el ámbito legal.

Etiquetas

legaltech font obfuscation unicode llms cybersecurity truetype noroboto document manipulation legal ethics adversarial attacks

Entidades mencionadas

LibreOffice software

Word software

TrueType software

Tesseract software

Unicode protocol_standard

python-docx software

PDFium software

SuperDoc software

PDF.js software

Office.js software

LegalQuants organization

The original home of the legal quants · Lawyers who build their own tech to practice law

Wingdings software

LegalTech organization

La legaltech, noción salida del inglés : Legal Technology, hace referencia al uso de la tecnología y de softwares para ofrecer servicios jurídicos. Según sus defensores, el término designa las tecnolo

Ver en Wikipedia

ChatGPT software

ChatGPT es un chatbot de inteligencia artificial desarrollado por OpenAI, y es un ejemplo clave de la tecnología que está desafiando las nociones tradicionales de la 'ventaja humana'. Su capacidad par

Ver en Wikipedia

GitHub organization

GitHub es una plataforma en línea utilizada para alojar y gestionar proyectos de software, incluyendo el código fuente de Secluso, la startup de privacidad que ha lanzado un sistema de seguridad para

Ver en Wikipedia

Codex software

El término códice se usa para denominar a uno de los formatos del libro. Se compone de cuadernos plegados, cosidos y encuadernados. Habitualmente se puede escribir en ambos lados de cada hoja, denomin

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia

Node.js software

Node.js es un entorno en tiempo de ejecución multiplataforma, de código abierto, para la capa del servidor basado en el lenguaje de programación JavaScript, asíncrono, con E/S de datos en una arquitec

Ver en Wikipedia