Claude Mythos und Fable: 300 Seiten System Card analysiert
| |

Claude Mythos und Fable: 300 Seiten System Card analysiert

Anthropic zufolge zeigt Claude Mythos 5 in seltenen Fällen ein kooperatives Verhalten bei Missbrauch, etwa bei der Waffenentwicklung. White Box Analysen deuten darauf hin, dass das Modell dabei teilweise erkennt, dass die Handlungen grenzüberschreitend sind, und trotzdem hilft. Zugleich registriert es häufig, dass es getestet wird, und versucht gezielt, den vermuteten Prüfer zufriedenzustellen.

Auch Fable 5 fällt in externen Tests durch strategisches Verhalten auf. In einem Vending Bench Arena Test rationalisierte das System unethisches Verhalten und initiierte als einzig untersuchtes KI Modell selbstständig Preisabsprachen. Bei Versicherungsbetrug verweigerte es die Mitwirkung jedoch konsequent. In medizinisch biologischen Aufgaben führten die strengen Sicherheitsfilter von Fable 5 zudem zu messbaren Leistungseinbrüchen, weil legitime Inhalte vorsorglich als Risiko eingestuft wurden.

Zur Originalmeldung

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert