ChatGPT: Mächtiger Chatbot lernt sprechen und sehen

Simon Stich,26.09.2023, 14:30 Uhr

3 min Lesezeit

ChatGPT versteht bald auch Bilder und Sprache. (© IMAGO / NurPhoto)

OpenAI hat Neuigkeiten für ChatGPT-Nutzer angekündigt. Der bekannte Chatbot wird in Kürze mit neuen Sprach- und Bildfunktionen ausgestattet, die das interaktive Erlebnis auf ein ganz neues Niveau heben sollen. Der Bot lernt inzwischen sprechen – und das ist nicht alles.

Wenn du über diese Links einkaufst, erhalten wir eine Provision, die unsere redaktionelle Arbeit unterstützt. Der Preis für dich bleibt dabei unverändert. Diese Affiliate-Links sind durch ein Symbol gekennzeichnet. Mehr erfahren.

ChatGPT versteht Bilder und Sprache

OpenAI, das Unternehmen hinter dem bekannten Chatbot ChatGPT, hat mehrere wichtige Neuerungen angekündigt. Über die Voice-Funktion wird ChatGPT in der Lage sein, auf gesprochene Anfragen auch mit gesprochenen Antworten zu reagieren, was laut OpenAI ein „authentisches Gespräch“ ermöglicht. Dabei kommt das Whisper-System von OpenAI zum Einsatz, eine bereits seit längerem verfügbare Transkriptions-Software.

Nutzer können zwischen fünf verschiedenen Stimmen wählen, die in Zusammenarbeit mit Schauspielern entwickelt wurden. Spotify hat bereits angekündigt, das neue Text-zu-Sprache-Modell von OpenAI zu nutzen, um Podcasts automatisch mit der Stimme des jeweiligen Podcasters zu übersetzen.

Lesetipp

Wird ChatGPT dümmer? Das steckt hinter dem Performance-Verlust von GPT-4

Corinna Saal

Neben der Sprachfunktion wird ChatGPT bald auch Bilder verarbeiten können. So können Nutzer Bilder hochladen und deren Inhalt analysieren lassen. Die Anwendungsbereiche sind laut OpenAI vielfältig und reichen von der Empfehlung von Mahlzeiten anhand des Inhalts des Kühlschranks bis hin zur Analyse von Diagrammen und Grafiken. Ein Zeichenwerkzeug ermöglicht es zudem, bestimmte Bereiche eines Bildes zu markieren, um den Fokus auf diesen Ausschnitt zu lenken.

OpenAI legt nach eigenen Angaben großen Wert auf Sicherheit und Privatsphäre und hat entsprechende Restriktionen implementiert. So soll auch mit den neuen Sprach- und Bildfunktionen sichergestellt werden, dass ChatGPT keine persönlichen Informationen preisgibt. Direkte Aussagen über analysierte Personen in Bildern sollen nicht möglich sein (Quelle: OpenAI).

Im Video: So entstehen KI-Bilder.

ChatGPT: Sprache nur mobil, Bilder überall

OpenAI wird die Sprachfunktion nur mobil für die iOS- und Android-Versionen von ChatGPT verfügbar machen. Sie muss in den Einstellungen aktiviert werden. Die Bildfunktion hingegen wird auf allen Plattformen einschließlich der Desktop-Version verwendbar sein. Wann genau die Sprach- und Bildfunktionen freigeschaltet werden, hat OpenAI noch nicht bekannt gegeben. Es soll aber „bald“ so weit sein.