Character.AI ha compartido una convención interna, vigente desde 2022, que añade al nombre de cada tensor un sufijo con las letras de sus dimensiones. El objetivo es que cualquier variable revele de un vistazo la forma del tensor con el que se trabaja, sin necesidad de rastrear el código.
La regla es directa. Primero se define un sistema de letras únicas para cada dimensión lógica del proyecto: B para el tamaño de lote, L para la longitud de secuencia, D para la dimensión del modelo, V para el tamaño del vocabulario, H para el número de cabezas de atención, K para el tamaño de cada clave o valor, F para la capa oculta del feed-forward y M para la longitud de memoria. Esa clave se documenta en el archivo, proyecto o repositorio correspondiente. Después, cada tensor se nombra terminando con la concatenación de esas letras en el orden de sus ejes: input_token_id_BL para un tensor bidimensional de lote y longitud, hidden_BLD para un tensor tridimensional de lote, longitud y dimensión del modelo, o logits_BLV para las salidas antes del softmax.
La técnica es independiente del framework: funciona con PyTorch, JAX o cualquier otra librería. El artículo incluye unTransformer incompleto a modo de ilustración, donde funciones como attention, ffn y layer_norm se leen con sus formas explícitas en cada variable. La ventaja práctica es reducir errores de transmisión (reshape, transpuestos o multiplicaciones mal alineadas) y acelerar la lectura de código ajeno, algo especialmente útil en proyectos de deep learning donde los tensores cambian de forma constantemente.
