31 Mar 2026 · Original en inglés · Resumen IA

Mr. Chatterbox: IA con sabor victoriano

Fuentes: Mr. Chatterbox is a (weak) Victorian-era ethically trained model you can run on your own computerT4

Trip Venturella ha lanzado "Mr. Chatterbox", un modelo de lenguaje único que se entrena exclusivamente con textos de dominio público de la Biblioteca Británica, datados entre 1837 y 1899. Este enfoque elimina cualquier dato de entrenamiento posterior a 1899, creando un modelo con una perspectiva y vocabulario exclusivamente victorianos. El modelo, con aproximadamente 340 millones de parámetros (similar a GPT-2-Medium), se basa en un corpus de 28.035 libros, representando 2.93 mil millones de tokens. Aunque descrito como "débil", Mr. Chatterbox es un experimento interesante que explora la posibilidad de crear modelos de lenguaje con datos exclusivamente históricos. Simon Willison ha logrado ejecutar el modelo localmente utilizando su framework LLM, incluso creando un plugin para facilitar su uso. El proyecto, aunque con limitaciones en cuanto a la calidad de las respuestas, representa un paso prometedor hacia la creación de modelos de lenguaje basados en datos de dominio público, aunque requiere significativamente más datos para alcanzar un rendimiento conversacional útil. Venturella ha admitido que para mejorar la capacidad conversacional del modelo, se utilizaron datos sintéticos generados por Claude Haiku y GPT-4o-mini, lo que podría comprometer la afirmación original de no usar datos posteriores a 1899.

Temas

Etiquetas

mr. chatterbox trip venturella british library llm claude simon willison inteligencia artificial dominio público modelo de lenguaje victorian era

Entidades mencionadas

LLM software

Mr. Chatterbox creative_work

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia

HuggingFace organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

2022 Chinchilla paper event

Qwen software

HuggingFace Spaces organization

New Space Get PRO Learn more · Reachy · new · Image Generation · Video Generation · Text Generation · Language Translation · Speech Synthesis · 3D Modeling · Object Detection · Text Analysis · Image E

Claude Code software

GPT-2 software

GPT-4o-mini software

Claude software

Andrej Karpathy person

Andrej Karpathy es uno de los científicos de datos más influyentes e innovadores. Es especialista en inteligencia artificial, aprendizaje profundo y visión por computadora. Desde 2017 es profesor en l

Ver en Wikipedia

nanochat software

llm-mrchatterbox software

uvx software

George Bernard Shaw person

George Bernard Shaw, conocido a petición del propio autor como Bernard Shaw, fue un dramaturgo, crítico y polemista irlandés cuya influencia en el teatro, la cultura y la política occidentales se exti

Ver en Wikipedia

Trip Venturella person

My name is Trip. I currently work in advertising, where I’m an award-winning associate creative director. I’m also a professional librettist and playwright. As an artist, I am especially interested in

British Library organization

La Biblioteca Británica es la biblioteca nacional del Reino Unido. La biblioteca está ubicada en Londres, es una de las bibliotecas más grandes del mundo y cuenta con una colección de más de 170 millo

Ver en Wikipedia

Jane Austen person

Jane Austen fue una novelista británica que vivió durante la época georgiana. La ironía que empleaba para dotar de comicidad a sus novelas hace que Jane Austen sea considerada entre los clásicos de la

Ver en Wikipedia

Oscar Wilde person

Oscar Fingal O'Flahertie Wills Wilde, conocido como Oscar Wilde, fue un escritor, poeta y dramaturgo británico de origen irlandés.

Ver en Wikipedia