El gobierno portugués anunció en diciembre de 2024 una inversión de 5,5 millones de euros para desarrollar AMÁLIA, un modelo de lenguaje grande (LLM) especializado en portugués europeo. El proyecto es una colaboración entre las universidades NOVA, IST, IT y la Fundação para a Ciência e a Tecnologia (FCT). El modelo se basa en EuroLLM y amplió su entrenamiento con datos portugueses:使用了5.8B de tokens de Arquivo.pt (5,5% del total de 107B tokens) en pre-entrenamiento, y entre 17-18% en ajuste fino supervisado. Se crearon cuatro benchmarks específicos, incluyendo ALBA. Los resultados muestran que AMÁLIA supera a Qwen 3-8B en la mayoría de benchmarks portugueses. Sin embargo, el crítico Duarte O Carmo señala que modelo, datos y registros de entrenamiento no son completamente accesibles, y cuestiona si la proporción de portugués europeo es suficiente para tratar al idioma como «ciudadano de primera clase».
Portugal invierte 5,5 millones en AMÁLIA, el primer LLM especializado en português europeo
