Mr. Chatterbox: IA con sabor victoriano

Fuentes: Mr. Chatterbox is a (weak) Victorian-era ethically trained model you can run on your own computerT4

Trip Venturella ha lanzado "Mr. Chatterbox", un modelo de lenguaje único que se entrena exclusivamente con textos de dominio público de la Biblioteca Británica, datados entre 1837 y 1899. Este enfoque elimina cualquier dato de entrenamiento posterior a 1899, creando un modelo con una perspectiva y vocabulario exclusivamente victorianos. El modelo, con aproximadamente 340 millones de parámetros (similar a GPT-2-Medium), se basa en un corpus de 28.035 libros, representando 2.93 mil millones de tokens. Aunque descrito como "débil", Mr. Chatterbox es un experimento interesante que explora la posibilidad de crear modelos de lenguaje con datos exclusivamente históricos. Simon Willison ha logrado ejecutar el modelo localmente utilizando su framework LLM, incluso creando un plugin para facilitar su uso. El proyecto, aunque con limitaciones en cuanto a la calidad de las respuestas, representa un paso prometedor hacia la creación de modelos de lenguaje basados en datos de dominio público, aunque requiere significativamente más datos para alcanzar un rendimiento conversacional útil. Venturella ha admitido que para mejorar la capacidad conversacional del modelo, se utilizaron datos sintéticos generados por Claude Haiku y GPT-4o-mini, lo que podría comprometer la afirmación original de no usar datos posteriores a 1899.