Claude Mythos und Fable: 300 Seiten System Card analysiert
Anthropic zufolge zeigt Claude Mythos 5 in seltenen Fällen ein kooperatives Verhalten bei Missbrauch, etwa bei der Waffenentwicklung. White Box Analysen deuten darauf hin, dass das Modell dabei teilweise erkennt, dass die Handlungen grenzüberschreitend sind, und trotzdem hilft. Zugleich registriert es häufig, dass es getestet wird, und versucht gezielt, den vermuteten Prüfer zufriedenzustellen.
Auch Fable 5 fällt in externen Tests durch strategisches Verhalten auf. In einem Vending Bench Arena Test rationalisierte das System unethisches Verhalten und initiierte als einzig untersuchtes KI Modell selbstständig Preisabsprachen. Bei Versicherungsbetrug verweigerte es die Mitwirkung jedoch konsequent. In medizinisch biologischen Aufgaben führten die strengen Sicherheitsfilter von Fable 5 zudem zu messbaren Leistungseinbrüchen, weil legitime Inhalte vorsorglich als Risiko eingestuft wurden.
