PanoDeic

Verwendung des PanoDeic protyps

Bildbasierte Rekonstruktionen von realen Szenen sind hilfreich wenn Informationen von anderen Orten aus genutzt werden sollen. Bei der Arbeit am realen Ausführungsort können sie jedoch manchmal weniger hilfreich sein. Ad hoc Aufzeichnung von Notizen bei Erstbegehung einer Baustelle kan ein Problem darstellen. Bildbasierte Rekonstruktion ist oft rechenintensiv und benötigt daher leistungsstake Hardware sowie Zeit. Beides ist bei einer Erstbegehung unter Umständen nicht vorhanden. Und selbst wenn die Umgebung bereits virtualisiert wurde, ist der virtuelle Interaktionsraum nicht zwingend ideal für die Kollaboration mit anderen anwesenden Personen. Die meisten Menschen, die am Ausführungsort arbeiten oder ihn besuchen sind experten im Planen innerhalb der realen Umgebung. Sind sie gezweungen die Planung in eine virtuelle Umgebung zu verlegen obwohl die reale Umgebung verfügbar ist, kann das die Leistung bremsen. In diesem Projekt wird ein Prototyp entwickelt, der bildbasierte ad hoc Notizen zur Planung ermöglicht und dabei den realen Interaktionsraum intakt hält. Um dies zu erreichen und gleichzeitig die Hardwareanforderungen niedrig zu halten, wird ein handelsübliches Smartphone mit einem Laserpointer kombiniert und die Blickrichtung der rückseitigen Kamera mittels einer Spiegelkonstruktion umgelenkt.

Das Gerät wird verwendet, indem der Laserpointer auf Objekte der realen Umgebung gerichtet wird, um Linien und andere Annotatinoen auf sie zu zeichnen. Die umgelenkte Kamera zeichnet Video- und Audiodaten der Annotationen auf. Nach der Aufzeichnung werden die Inhalte des Videos in Form von Mosaikbildern/Panoramabildern rekonstruiert, auf die Linien und Marker entsprechend der Annotationen aufgezeichnet werden. Für die Konstruktion der Panoramas wird eine Pipeline zur Bildausrichtung verwendet, die mit linearer Komplexität in der Anzahl der Bilder arbeitet. Das ermöglicht die Rekonstruktion von hunderten von Bildern und damit das Erreichen einer vergleichsweise hohen Bildrate für die Auflösung der Linienannotationen. Die Rekonstruktionsberechnung wie etwa bei „Structure from Motion“ wird üblicherweise mit Bündelblockausgleichung durchgeführt, welche kubische Komplexität in der Anzahl der Bilder besitzt. Solch ein Ansatz würde deutlich mehr Rechenzeit benötigen, um die gleichen Panoramabilder zu erzeugen wie der lineare Ansatz dieses Projekts.

Für die Bildverarbeitungspipeline werden charakteristische Merkmale mit der Methode SIFT – Scaling Invariant Feature Transform von Lowe 2004 extrahiert. Diese Methode ist auch die Basis für Rekonstruktionen in Photo Tourism von Snavely et al. sowie Microsoft Photosynth. Zuordnungen von Merkmalen verschiedener Bildern werden mittels „nearest neighbour“-Analyse der Merkmalsdeskriptoren ermittelt und zwischen den Bildern werden Homographien mittels RANSAC berechnet. Anders als in Lowes ursprünglicher Arbeit wird die Filterung der Zugeordneten Merkmale mit Kreuzkorrelation der jeweils besten Merkmalspartner begonnen, wodurch die Abbildung der Zuordnungen bijektiv wird. Weiter gefiltert wird durch das Eliminieren von Zuordnungen mit zu großem Unterschied in der Merkmalsrotation. Anschließend werden sämtliche Zuordnungen entfernt, die aus der überlappenden Region des (nach Schritt 2) berechneten Mosaikbildes ausbrechen. Zuletzt werden Zuordnungen entfernt, deren Richtungsvektor zu stark von der durchschnittlichen Richtung der Zuordnungen (nach Schritt 3) abweichen.

Die Merkmalskorrelationen und daraus berechnete Homographien werden genutzt, um Panoramas zusammenzufügen, welche den Linien entsprechen, die mit dem Laserpointer gezeichnet wurden. Dies ergibt eine Sammlung separater Panoramastreifen. Diese Streifen werden dann erneut korreliert und zusammengefügt. Durch das Nutzen der spezifischen Informationen des Anwendungsfalls, kann hier mit linearen Zeitkosten die komplette Bildszene rekonstruiert werden. Für die Korrelation der einzelnen Streifen werden alle zugeordneten Merkmale eines einzelnen Panoramastreifens komprimiert, indem sie durch das Merkmal ersetzt werden, welches dem Durchschnitt ihrer Gruppe am nächsten liegt.

Die Mosaikbildern werden dann als Hintergrund für die aufzeichneten Annotationen verwendet. Die Szenen können als statische Bilder mit aufgemalten Annotationen betrachtet werden. Alternativ können sie als Videos betrachtet werden inklusive der Audioinhalte vom Zeitpunkt der Aufzeichnung. Eine Auswertung der Audiokommandos kann verwendet werden, um mehr Flexibilität bei den Annotationen zu erreichen. Verbale Annotatinoen können jedoch einen negativen Einfluss auf die verbale Kommunikation mit anderen anwesenden Personen haben und den Fluss eines Gesprächs stören.

Als Alternative zu Audiokommandos wird das Touch-Interface der Mobilanwendung verwendet, um unterschiedliche Annotationen zu erzeugen. Die Audiospir wird dabei weiterhin aufgezeichnet, um verbale Marker oder Beschreibungen an Annotationsobjekte anzufügen.

Die Mobilanwendung ist für Android Endgeräte Implementiert und verwender die MediaRecorder API. Parallel zur Aufnahme von Video und Audio wird ein Log der Annotationsdaten erzeugt. Nach dem Transfer sämtlicher Dateien auf den PC, wird dieser Log verwendet, um die Aufnahme zu zerteilen. Eine C++m Anwendung und die ffmpeg Bibliothek kommen zum Einsatz, um die Bildrate zu lesen und die einzelnen Bilder sowie Audiospuren entsprechend des Logfiles zu extrahieren. Die mp3gain Bibliothek wird zur Normalisierung der Lautstärke verwendet. Eine Beschreibung der extrahierten Szene wird in einer JSON Datei abgelegt. Eine weitere C++ Anwendung fügt die extrahierten Einzelbilder anhand der Szenenbeschreibung zusammen und verwendet dabei die OpenCV Bilderarbeitungssoftware. Die vollständig rekonstruierten Szenen können anschließend in einer Webschnittstelle betrachtet werden, in der Annotationen individuell ausgewählt und abgespielt werden können. Eine Testszene findet sich hier.

 

ffdpDiese Arbeiten waren Teil eines Kooperationsprojektes der Hochschulen RheinMain und Darmstadt, gefördert vom Programm „Forschung für die Praxis“ des Hessischen Ministeriums für Wissenschaft und Kunst, so wie mit Unterstütung von Ove Arup & Parnters, Hessisches Baumanagement, Fraunhofer IGD, Goethe Universität Frankfurt a.M., und University of London.