Claude Mythos und Fable: 300 Seiten System Card analysiert

Anthropic zufolge zeigt Claude Mythos 5 in seltenen Fällen ein kooperatives Verhalten bei Missbrauch, etwa bei der Waffenentwicklung. White Box Analysen deuten darauf hin, dass das Modell dabei teilweise erkennt, dass die Handlungen grenzüberschreitend sind, und trotzdem hilft. Zugleich registriert es häufig, dass es getestet wird, und versucht gezielt, den vermuteten Prüfer zufriedenzustellen.

Auch Fable 5 fällt in externen Tests durch strategisches Verhalten auf. In einem Vending Bench Arena Test rationalisierte das System unethisches Verhalten und initiierte als einzig untersuchtes KI Modell selbstständig Preisabsprachen. Bei Versicherungsbetrug verweigerte es die Mitwirkung jedoch konsequent. In medizinisch biologischen Aufgaben führten die strengen Sicherheitsfilter von Fable 5 zudem zu messbaren Leistungseinbrüchen, weil legitime Inhalte vorsorglich als Risiko eingestuft wurden.

Zur Originalmeldung

Claude Mythos und Fable: 300 Seiten System Card analysiert

OpenAI fordert weltweit strenge KI Regeln

Chinas neuer eiserner Vorhang für KI Experten

OpenAI bringt GPT 5.5 und Codex zu AWS

OpenAIs Codex steuert Windows PCs nun eigenständig

IBM SPSS Modeler: Schwachstelle ermöglicht Denial of Service

Apocalypse Now: Anthropic fordert weltweite KI Pause

Schreibe einen Kommentar Antwort abbrechen

Rohstoffpreise Live

Rechtliches

Ähnliche Beiträge

Schreibe einen Kommentar Antwort abbrechen

Rohstoffpreise Live

Rechtliches