Die Notwendigkeit

Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist ein Bereich, der die Interaktion zwischen Computer und Mensch revolutioniert. Pix2Story ist ein Experiment, das einem KI-System beibringt, kreativ zu sein, sich von einem Bild inspirieren zu lassen und etwas Neues daraus zu schaffen.

Die Idee

Das Ziel war, eine möglichst natürliche und stimmige Erzählung zu schreiben, um die Fähigkeiten von NLP zu demonstrieren. Wir haben eine Web-Anwendung auf Azure entwickelt, die es den Benutzern ermöglicht, ein Bild hochzuladen und eine computergenerierte Geschichte zu erhalten, die auf verschiedenen literarischen Genres basiert.

Die Lösung

Ein trainiertes visuell-semantisches Einbettungsmodell analysiert das Bild und generiert Untertitel. Die Pix2Story-Anwendung wird dann zum Geschichtenerzähler, indem sie die Bildunterschriften transformiert und eine Erzählung generiert.

Technische Details für Pix2Story

Wir stützten unsere Arbeit auf mehrere Publikationen: Skip-Thought Vectors, Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books und verschiedene Quellen wie neural-storyteller. Die Idee besteht darin, die Bildunterschriften des hochgeladenen Bildes zu nehmen und sie in das rekursive neuronale Netzmodell zu integrieren, um den Erzähltext auf der Grundlage von Genre und Bild zu generieren.

Wir trainierten ein visuelles semantisches Einbettungsmodell auf dem MS COCO-Untertitel-Datensatz von 300.000 Bildern, um den visuellen Input durch die Analyse des hochgeladenen Bildes und die Generierung der Untertitel sinnvoll zu gestalten.

Wir transformierten auch die Untertitel und erstellten einen Erzähltext, der auf dem gewählten Genre basiert: Abenteuer, Science Fiction oder Krimi. Dazu haben wir 2 Wochen lang ein Encoder-Decoder-Modell an mehr als 2000 Romanen geschult.
Dieses Training ermöglicht es, jede Passage der Romane auf einen Skip-Thought-Vektor abzubilden, eine Art der Einbettung von Gedanken in den Vektorraum.

Dadurch konnten wir nicht nur Wörter, sondern auch die Bedeutung dieser Wörter im Kontext verstehen, um die umgebenden Sätze einer kodierten Textstelle zu rekonstruieren.

Wir verwenden den neuen Azure Machine Learning Service sowie das Azure Template Management SDK mit Python 3, um das Docker-Image mit diesen Vorlagen zu erstellen und es unter Verwendung von AKS mit GPU-Fähigkeiten einzusetzen, um das Projekt produktionsreif zu machen

Ressourcen:

Projekte im Umfeld von Pix2Story

Weitere Innovations-Projekte durchsuchen

Entdecken Sie die Möglichkeiten von KI

Starten Sie Ihre eigenen KI-Innovationen mit Schulungsressourcen und Entwicklungslösungen von Microsoft AI.