Qwen3.7 Max schlägt Konkurrenz bei Agenten Benchmarks

Alibaba hat mit Qwen 3.7 Max ein neues KI Modell vorgestellt, das für komplexe Agenten Aufgaben entwickelt wurde. Das System soll über viele Stunden eigenständig arbeiten, Programmieraufgaben lösen, Büro Abläufe automatisieren und Code selbstständig optimieren.

In aktuellen Benchmarks schneidet Qwen 3.7 Max stark ab und übertrifft dabei teils etablierte Konkurrenten wie Claude 4.6 Opus und DeepSeek V4 Pro. Genannt werden Spitzenwerte unter anderem im Programmiertest Terminal Bench 2.0 Terminus, bei SWE Verified, im Humanity’s Last Exam und im mathematischen Benchmark Apex.

Außerdem wurde das Modell in einem realen Dauertest eingesetzt, in dem es einen komplexen Aufmerksamkeits Operator in SGLang auf unbekannter Hardware selbstständig optimierte. Über rund 35 Stunden führte es 1158 Tool Aufrufe durch, diagnostizierte Fehler und korrigierte den Code. Am Ende stand eine zehnfache Beschleunigung des Kernels gegenüber der Standard Referenz.

Zur Originalmeldung