El artículo de Tritium Legal Technologies explora una vulnerabilidad emergente en la forma en que los sistemas de tecnología legal modernos procesan documentos, particularmente aquellos que contienen fuentes. Se denomina “Noroboto” y se basa en la manipulación de fuentes TrueType para engañar a los sistemas de procesamiento de lenguaje natural (NLP) y a los modelos de lenguaje grandes (LLM) utilizados en el análisis legal.
¿Qué es Noroboto y por qué es importante?
Los sistemas de tecnología legal actuales son a menudo complejas combinaciones de software propietario y de código abierto. Esta complejidad, junto con imperfecciones en las especificaciones de fuentes y su implementación, crea oportunidades para ataques. Noroboto es una técnica que explota estas imperfecciones. Funciona creando una fuente maliciosa que, aunque parece normal, asigna incorrectamente los caracteres Unicode a sus representaciones visuales (glifos). Cuando se incrusta en un documento, esta fuente hace que el texto se muestre correctamente en la mayoría de las aplicaciones, pero al copiar y pegar el texto, se revela una representación Unicode corrupta.
¿Cómo funciona?
Las fuentes TrueType contienen información sobre la forma de los caracteres (glifos) y un mapa de caracteres Unicode que asocia cada carácter a su glifo correspondiente. Noroboto manipula este mapa, asignando caracteres Unicode válidos a glifos que no corresponden a esos caracteres. Esto crea una ilusión de texto legible, pero el texto subyacente es esencialmente basura. La capacidad de incrustar fuentes en documentos (crucial para la compatibilidad y el diseño preciso) es precisamente lo que permite este ataque.
Aplicaciones y casos de uso
Aunque inicialmente se demostró como un ejercicio de investigación, Noroboto tiene implicaciones significativas. Podría utilizarse para:
- Ocultar términos específicos: Un abogado podría usar Noroboto para ocultar cláusulas desfavorables en un contrato, dificultando su detección por sistemas de análisis automatizados.
- Eludir la detección de plagio: Al alterar la representación Unicode del texto, se podría evitar que los sistemas de detección de plagio identifiquen contenido duplicado.
- Engañar a los modelos de lenguaje: Noroboto puede alterar el contenido de un documento de manera que los LLM interpreten incorrectamente su significado.
Consideraciones y limitaciones
- Detección: Los modelos de lenguaje más avanzados (como ChatGPT 5.5) pueden detectar y descifrar Noroboto, aunque requiere esfuerzo. Las actualizaciones de Noroboto intentan contrarrestar esto mediante el uso de cifrado más complejo y la perturbación de la fuente.
- Alternativas: El artículo destaca que las técnicas de “obfuscación parcial” y “reemplazo de Unicode” son aún más efectivas que la obfuscación total. Estas técnicas alteran solo partes del texto, lo que dificulta su detección.
- Implicaciones éticas y legales: El uso de Noroboto plantea preguntas sobre la ética y la legalidad de manipular documentos legales para obtener una ventaja injusta. La transparencia y la integridad son fundamentales en el ámbito legal.
