El desarrollador de la aplicación In the Long Run, una plataforma que convierte el kilometraje de Strava en progreso sobre rutas virtuales por el mundo, detalla en un artículo técnico el proceso seguido para enriquecer sus mapas con puntos de interés relevantes. Partió de GeoNames como fuente de datos principal —un dataset abierto con 13 millones de registros bajo licencia Creative Commons— y aplicó filtros por códigos de función (parques, monumentos, castillos, montañas) y por población o elevación para reducir el conjunto a unas 725.000 entradas iniciales. Mediante Shapely y Pyproj cruzó estos puntos con el trazado geográfico de cada ruta, generando archivos Parquet específicos por recorrido: 511 puntos para la ruta circular de Islandia, 10.000 para la ruta de Ciudad del Cabo a Magadán y 14.181 para la Ruta 66, una disparidad que evidenció el sesgo anglófono de las señales basadas en Wikipedia. Para refinar la selección utilizó el modelo Haiku de Anthropic mediante llamadas en lote a la API con tool use estructurado, con un coste aproximado de 10 dólares por las rutas más largas, aunque detectó alucinaciones y fugas de marcado antml en las respuestas. El modelo sirvió sobre todo como filtro de "gusto" más que como fuente de verdad, complementado por señales de notabilidad como el número de Wikipedias en distintos idiomas que tienen artículo sobre cada lugar. La experiencia llevó al autor a concluir que en proyectos con IA es mejor introducir una o dos tecnologías nuevas a la vez y mantener sesiones de agente con contexto condensado para obtener mejores resultados.
El autor de In the Long Run explica cómo construyó un pipeline de puntos de interés con IA
Fuentes:
You can't unit test for taste
