Este proyecto es una exploración profunda de la "arqueología digital" que transforma un registro masivo de conversaciones en una estructura de conocimiento organizada, similar a un CRM personal. El autor, Vadim Drobinin, analizó 1.2 millones de mensajes de los últimos 20 años para entender su "banda ancha emocional" y la dinámica de sus relaciones, más allá de simples eventos biográficos como viajes o trabajos.
Técnicamente, el proceso implica la extracción de datos históricos de múltiples plataformas (VK, Twitter, Telegram) respetando leyes como el RGPD. El desafío principal es el procesamiento de datos no estructurados: se deben manejar problemas de codificación, cifrado y formatos heterogéneos. Un obstáculo crítico es la "resolución de entidades", donde el sistema debe unir perfiles dispersos (ej. identificar que "Sasha", "Al" y "Alexander" son la misma persona) y clasificar el contenido. Dado que los métodos tradicionales de NLP fallan con apodos y contexto, el autor emplea LLMs para filtrar el "ruido" (emojis, relleno) y distinguir eventos de vida de la charla casual. Se utiliza un enfoque de muestreo para eliminar palabras vacías y se entrenan modelos para detectar eventos con una tasa de falsos positivos inferior al 1%.
La aplicación principal es crear un "Mapa de Relaciones" en Obsidian, permitiendo visualizar patrones emocionales y la "vida media" de las amistades. Sin embargo, las consideraciones incluyen el alto costo computacional (requiriendo miles de dólares o semanas de inferencia local) y la dificultad de mantener la privacidad. Además, el autor descubrió que su vocabulario se estancó en su juventud, lo que añade una capa de introspección personal al análisis.
