Wie OpenAI das Bild-Denken verbessern will

Was kann das neue OpenAI? (Foto: Imago/SOPA Images)

Warum nicht etwas länger nachdenken, bevor man antwortet? Diese Grundannahme steckt hinter den neuen Versionen o3 und o4-mini, die der ChatGPT-Erfinder OpenAI nun ins Rennen schickt. Was genau neu daran ist.

San Francisco – Was die neuen Varianten der o-Serie von OpenAI besonders machen soll, hat vor allem mit dem Umgang mit Bild-Informationen zu tun. Sowohl o3 als auch o4-mini soll darauf ausgelegt sein, „länger und intensiver nachzudenken, bevor sie antworten“, heißt es beim Entwickler-Team. Dabei können die Reasoning-Modelle jetzt alle vorhandenen ChatGPT-Tools eigenständig nutzen – unter anderem Python sowie die Anwendungen für das Bildverständnis und die Bildgenerierung. Auf diese Weise sollen die Modelle in die Lage versetzt werden, mehrstufige und komplexe Probleme zu lösen – ein Fortschritt, den OpenAI als wichtigen Schritt hin zu zunehmend autonomem Handeln betrachtet.

OpenAI o3 und o4-mini sind die ersten Modelle von OpenAI, „die mit Bildern denken können“, heißt es bei dem Software-Riesen. Soll heißen: Die neuen KI-Tools erkennen Bilder nicht nur, sie sind offenbar auch in der Lage, visuelle Informationen aus ihnen aufzunehmen und direkt in ihre Argumentationskette einzubauen.

Als Beispiel führen die Entwickler in einem Blog-Beitrag einen Fall ein, in dem ein für das menschliche Auge eher schwer auf einen Blick auszuwertender Schnappschuss einer Meeresszenerie gezeigt wird. Die Anweisung lautet sinngemäß: Welches der im Bild zum Teil nur angeschnittenen Schiffe ist das größere – und in welchem Hafen wird es als Nächstes anlegen? Angeblich können die neuen Anwendungen auch solche komplexen Lösungen bearbeiten.

Geladen werden neben Fotos auch Inhalte wie Whiteboards, Diagramme oder Skizzen – selbst wenn diese unscharf oder von geringer Qualität sind. Das Modell ist offenbar in der Lage, selbstständig Werkzeuge zum Einsatz zu bringen, um die Bilder anzupassen – etwa durch Drehen oder Zoomen. Solche Zwischen-Erkenntnisse sollen dann in die „Denkprozesse“ der Systeme einfließen.

Die Modelle o3, o4-mini und o4-mini-high sind für Plus-, Pro- und Team-User ab sofort verfügbar. Zudem hat OpenAI den Start des Systems Codex CLI vorgestellt. Das ist ein Open-Source-Coding-Agent, der lokal im Terminal läuft.