Una nueva investigación realizada como parte del programa Anthropic Fellows ha revelado que los fallos de los modelos de IA de vanguardia están cada vez más dominados por la incoherencia en lugar de la falta de alineación sistemática. El estudio, basado en la teoría del 'hot mess' de la falta de alineación, descompone los errores en componentes de sesgo (sistemático) y varianza (incoherente), encontrando que a medida que las tareas se vuelven más complejas y el razonamiento más largo, la incoherencia se vuelve más prominente. Esto sugiere que los futuros fallos de la IA podrían parecerse más a accidentes industriales que a la persecución coherente de objetivos no deseados. La investigación destaca que escalar los modelos por sí solo no eliminará la incoherencia y que es crucial comprender cómo estos sistemas pueden fallar para garantizar la seguridad, especialmente a medida que se confían a la IA tareas cada vez más importantes.
