Lokales Schreiben mit mehr als 1.000 Token pro Sekunde

DiffusionGemma setzt auf ein anderes Verfahren als bisherige KI Modelle. Statt Text Wort für Wort aufzubauen, beginnt das Modell mit zufälligen Platzhaltern und verfeinert sie in mehreren Durchgängen zu sinnvollen Wörtern.

Google vergleicht den Vorgang mit einer Druckerpresse, die einen kompletten Textblock in einem Schritt erzeugt. Dadurch berechnet der Prozessor 256 Token parallel. Das soll vor allem bei lokaler Nutzung auf einer Grafikkarte Vorteile bringen, wo herkömmliche Modelle oft auf den nächsten Schritt warten müssen.

Zur Originalmeldung