La necesidad

Determinar correctamente la posición, la orientación y la identidad de un objeto es un gran desafío (sin información previa, óptica estereoscópica o las dimensiones). Puede ser difícil medir la escala o la distancia, y el reconocimiento de objetos requiere un gran conjunto de datos etiquetados.

La idea

Las redes neuronales convolucionales (CNN) han hecho grandes progresos en el reconocimiento de objetos, la clasificación y la segmentación, por ejemplo como las que se utilizan en los vehículos autónomos. PoseTracker se vale del poder de las CNN para reconocer y hacer un seguimiento de los objetos en 3D.

La solución

PoseTracker usa un método con un marcador óptico patentado para inferir la postura de un objeto a partir de imágenes en 2D y hacer luego un seguimiento de la posición a partir de una imagen a todas las imágenes posteriores, sobre la base de comparaciones con una orientación 3D predefinida.

Detalles técnicos de PoseTracker

Las redes neuronales convolucionales, una clase de red neuronal profunda, han tenido grandes avances en los últimos años en términos de reconocimiento, clasificación y segmentación de objetos, que han resultado en desarrollos significativos para los vehículos autónomos y una gran variedad de aplicaciones de visión artificial.

Sin embargo, hay muy pocas implementaciones prácticas de estos métodos avanzados para la estimación de la postura de objetos en 3D. La capacidad de reconocer y hacer un seguimiento del objeto en el espacio de referencia tridimensional sigue siendo un tema difícil de resolver debido a algunos problemas difíciles:

  1. La información de la postura en 3D es difícil de obtener, ya que requiere instalaciones complejas con aparatos ópticos estereoscópicos o de localización magnética.
  2. La falta de información previa sobre el objeto de interés.
  3. Es muy difícil obtener un conjunto grande de datos etiquetados con la información de postura apropiada. La manipulación tradicional de imágenes como las transformaciones y el escalado de ejes inevitablemente dañan la información de la postura en 3D.

La idea es aprovechar el poder de las CNN e implementar una aplicación para reconocer y hacer un seguimiento de la postura (posición y orientación) de los objetos en 3D con un marcador óptico patentado que ayudará a identificar la rotación y estimar la postura del objeto.

PoseTracker es una prueba de concepto para una canalización simple para detectar la postura de objetos, integrada con información de rotación basada en una solución de seguimiento de la postura en 3D (un marcador óptico).

La aplicación analiza las imágenes bidimensionales tomadas de una cámara con el marcador óptico siempre visible. La aplicación, mediante un entrenamiento supervisado, detecta el marcador, que infiere la información sobre su orientación desde una imagen a todas las imágenes subsiguientes en comparación con una orientación 3D predefinida.

Este método diferente para resolver los problemas del seguimiento de postura será de gran ayuda en el futuro, donde se podrá usar la cámara del teléfono para determinar el ángulo, la orientación y la distancia de un objeto en tiempo real.

Recursos:

Proyectos relacionados con PoseTracker

Explora más proyectos

Explora las posibilidades de la IA

Inicia tus propias innovaciones en IA con los recursos de aprendizaje y las soluciones de desarrollo de IA de Microsoft.