Este artículo relata un proyecto personal de 25 años para rastrear el precio de los huevos a través de recibos escaneados, utilizando tecnologías de vanguardia como agentes de codificación con IA (Codex y Claude) y modelos de visión por computadora. El autor comenzó en 2001 guardando imágenes de recibos sin ingresar precios, anticipando que la tecnología OCR (Reconocimiento Óptico de Caracteres) eventualmente maduraría para extraer la información.
El principal desafío fue el procesamiento de los recibos escaneados, especialmente aquellos de los primeros años, que presentaban el llamado "problema de los tonos de blanco": la dificultad de distinguir los recibos del fondo del escáner debido a la similitud de colores. Inicialmente, se probaron métodos de visión por computadora clásicos sin éxito. La solución llegó con Meta's SAM3, un modelo de segmentación que identificó los límites de los recibos con una precisión asombrosa. Posteriormente, se descubrió que Claude, una herramienta de lenguaje, ya estaba resolviendo el problema de la rotación de los recibos, eliminando la necesidad de una compleja canalización de procesamiento de imágenes.
El proceso de extracción de datos involucró la superación de limitaciones de Tesseract OCR, un software común para reconocimiento de texto, que generaba errores frecuentes. Se adoptó PaddleOCR-VL, un modelo de visión-lenguaje que, aunque no podía realizar la extracción estructurada, mejoró significativamente la calidad del OCR. Luego, Codex y Claude se utilizaron para la extracción estructurada, identificando los elementos de línea de los huevos y sus precios. Se implementó una arquitectura de trabajo en paralelo para acelerar el proceso, con Codex cambiando automáticamente a Claude cuando se agotaban los tokens.
Finalmente, se construyó un clasificador basado en LLM (Large Language Model) para identificar recibos que contenían huevos, utilizando ejemplos de casos límite etiquetados manualmente. Este clasificador superó la precisión de las etiquetas iniciales, revelando errores en el etiquetado manual. El proyecto culminó con una base de datos de 11,345 recibos procesados, demostrando el poder de la IA para extraer información valiosa de datos históricos y desordenados. La experiencia destaca la importancia de observar las herramientas que se están utilizando, ya que la solución a un problema puede estar presente en una herramienta ya en uso, y la necesidad de iterar y refinar los procesos para obtener resultados precisos y confiables.
