HPPIE (Hyper-Personalized Patient Insights Engine) es una arquitectura de RAG clínico que incorpora el modelado de persona del paciente en la fase de recuperación, en lugar de relegarlo a un filtrado posterior. El proyecto fue desarrollado en una Global AI Hackathon, donde obtuvo el segundo puesto de más de 300 propuestas, y se publica como caso de estudio técnico.
El problema que aborda se describe como "conciencia fragmentada": los sistemas RAG sanitarios estándar no conservan un perfil persistente del paciente entre sesiones, de modo que cada consulta parte de cero. Si dos usuarios producen la misma similitud coseno, el sistema los trata como el mismo paciente, y es el propio usuario quien termina haciendo el filtrado clínico que la plataforma debería haber automatizado.
La solución se articula en tres etapas implementadas sobre FastAPI, Qdrant y Ollama. La primera es una capa de modelado de persona que, antes de la recuperación, construye un perfil estructurado a partir de edad, sexo, medicación activa, diagnósticos, alergias y objetivos de salud. Ese perfil se inyecta en el embedding de la consulta, de forma que el espacio vectorial procesa una consulta distinta para cada paciente. La segunda etapa es un motor de puntuación híbrida que combina similitud coseno (peso 0,5), BM25 con sesgo hacia términos clínicos (0,3) y una puntuación de relevancia conductual (0,2). La tercera ejecuta la inferencia local con Ollama dockerizado: una decisión de cumplimiento HIPAA, no de rendimiento, ya que enviar una consulta enriquecida con medicación a una API externa hace el sistema inviable en entornos regulados. El coste aceptado es que un modelo de 7B no iguala a GPT-4 en resúmenes extensos.
En las pruebas, una consulta como "dolor torácico" devolvió contenido musculoesquelético a un corredor de 35 años y evaluación de riesgo cardíaco a un paciente de 65 años con hipertensión. Entre las limitaciones reconocidas están la dependencia de datos clínicos estructurados —un perfil incompleto produce respuestas personalizadas pero erróneas, un modo de fallo peor que el RAG genérico—, la ausencia de pruebas de carga a escala productiva y la insuficiencia de los modelos locales para apoyo a la decisión clínica que exija análisis diferencial exhaustivo.
