Die Notwendigkeit

Die korrekte Erfassung der Position, Orientierung und Identität eines Objekts ist eine große Herausforderung: Ohne vorherige Informationen, optische Daten oder Messungen kann es schwierig sein, Maßstab oder Entfernung zu messen und die Objekterkennung erfordert eine großes Dataset an deklarierten Daten.

Die Idee

Die CNN-Lösung (Convolutional Neural Networks) hat bedeutende Fortschritte bei der Erkennung, Klassifizierung und Segmentierung von Objekten gemacht, wie sie beispielsweise in autonomen Fahrzeugen verwendet werden. PoseTracker nutzt die Möglichkeiten von CNN zur Erkennung und Verfolgung von Objekten in 3D.

Die Lösung

PoseTracker verwendet einen patentierten Ansatz mit optischen Markern, um die Lage eines Objekts aus 2D-Bildern abzuleiten und verfolgt dann die Position ausgehend von einem Bild über alle nachfolgenden Bilder, basierend auf Vergleichen zu einer vorher definierten 3D-Orientierung.

Technische Details zu PoseTracker

Die CNN-Lösung (Convolutional Neural Networks), eine Klasse von weitverzweigten neuronalen Netzen, hat in den letzten Jahren bedeutende Fortschritte in Bezug auf Objekterkennung, Klassifizierung und Segmentierung gemacht, was zu einer bedeutenden Entwicklung bei autonomen Fahrzeugen und einer Vielzahl von Anwendungen mit maschinellem Sehen geführt hat.

Es gab jedoch nur sehr wenige praktische Implementierungen dieser fortschrittlichen Ansätze zur Schätzung der Lage von 3D-Objekten. Die Fähigkeit, Objekte im 3D-Referenzraum zu erkennen und zu verfolgen, ist aufgrund mehrerer komplexer Fragen immer noch ein schwierig zu lösendes Problem:

  1. Die 3D-Lage ist schwer zu erfassen und erfordert komplizierte Anordnungen mit stereo-optischen oder magnetischen Ortungsgeräten.
  2. Fehlende Vorabinformation über das betreffende Objekt.
  3. Ein hinreichend großer, deklarierter Datensatz mit den richtigen Lageinformationen ist nur sehr schwer zu erhalten. Herkömmliche Bildbearbeitung, wie z. B. Achsendimensionierung und -transformationen, verändert unweigerlich die 3D-Lageinformationen.

Die Idee besteht darin, die Leistungsfähigkeit von CNN zu nutzen und eine Anwendung zur Erkennung und Verfolgung der Lage (Position und Ausrichtung) von 3D-Objekten mit einem patentierbaren optischen Marker zu implementieren, der es ermöglicht, die Rotation zu identifizieren und die Lage des Objekts abzuschätzen.

PoseTracker ist ein Proof-of-Concept für eine einfache, integrierte Pipeline zur Lageerkennung von Objekten im Raum mit Rotationsinformationen auf der Grundlage einer 3D-Lageverfolgungslösung (ein optischer Marker).

Die Anwendung analysiert 2D-Bilder einer Kamera, wobei die optische Markierung stets sichtbar ist. Die Anwendung, mit einem überwachten Training, erkennt den Marker und leitet dessen Orientierung von einem Bild auf alle nachfolgenden Bilder basierend auf dem Vergleich mit einer vordefinierten 3D-Orientierung ab.

Dieser abweichende Ansatz zur Lösung von PoseTracker-Problemen soll Ihnen in Zukunft helfen, die Kamera Ihres Mobiltelefons zu benutzen, um den Winkel, die Orientierung und die Entfernung eines Objekts in Echtzeit zu ermitteln.

Ressourcen:

Projekte im Umfeld von PoseTracker

Mehr Projekte für Business-Szenarien

Entdecken Sie die Möglichkeiten von KI

Starten Sie Ihre eigenen KI-Innovationen mit Schulungsressourcen und Entwicklungslösungen von Microsoft AI.