Projektabschluss am Heinz Nixdorf Institut
Die sogenannte Tiefensch?tzung dient der dreidimensionalen Wahrnehmung von Szenen in Fotoaufnahmen und spielt in Anwendungsbereichen wie der Robotik oder dem autonomen Fahren eine wichtige Rolle. Seit 2019 haben Wissenschaftler*innen des Heinz Nixdorf Instituts der Universit?t Paderborn gemeinsam mit dem Forschungszentrum L3S der Leibniz Universit?t Hannover (Arbeitsgruppe Visual Analytics, Prof. Dr. Ralph Ewerth) an maschinellen Lernmethoden gearbeitet, die diesen Prozess universeller und kostengünstiger gestalten sollen. Nach zwei Jahren Laufzeit des Projekts ?Schwach überwachtes Lernen von Tiefensch?tzung in monokularen Bildern“, das von der Deutschen Forschungsgemeinschaft (DFG) mit knapp 175.000 Euro gef?rdert worden ist, kann die Projektgruppe nun auf Ergebnisse für diverse Anwendungsbereiche blicken.
Von der zweiten zur dritten Dimension
Mit einer herk?mmlichen Kamera wird die aufgenommene dreidimensionale Welt in eine zweidimensionale Aufnahme umgeformt. Fotografiert man jedoch mit mehreren Linsen oder mit bestimmten Sensoren, die die Tiefe der dargestellten Objekte messen k?nnen, l?sst sich die dritte Dimension rekonstruieren und so eine dreidimensionale Darstellung erzeugen. Für jedes Pixel wird dabei ein Wert festgelegt, der den Abstand zur Kameralinse misst. Derartige Informationen für einzelne Bilder werden auf einer sogenannten Tiefenkarte gesammelt, deren Erstellung zum Erlernen von vorhersagbaren Modellen allerdings nicht nur zeitaufw?ndig, sondern durch die Verwendung teurer und energiehungriger Sensoren wie LiDAR vor allem auch sehr kostenintensiv ist. Ein breiter Einsatz in beliebigen Szenerien ist dementsprechend noch nicht umsetzbar.
?Um Methoden zur Tiefensch?tzung weiter anwendbar machen zu k?nnen, haben wir uns in dem Kooperationsprojekt mit Herangehensweisen besch?ftigt, bei denen schw?chere Informationen zum Trainieren m?glicher Modelle, mit denen Tiefenkarten vorhergesagt werden k?nnen, ausreichen. Durch Sensoren, die nur ungef?hre Werte produzieren, oder durch synthetische Werte, die künstlich generiert werden, wird der Prozess deutlich kostengünstiger“, erl?utert Julian Lienen, wissenschaftlicher Mitarbeiter der ehemaligen Fachgruppe ?Intelligente Systeme und Maschinelles Lernen“ am Heinz Nixdorf Institut der Universit?t Paderborn unter der Leitung von Prof. Dr. Eyke Hüllermeier. Die Verallgemeinerung konventioneller maschineller Lernmethoden und die Konstruktion von synthetischen Trainingsdaten, die die Wissenschaftler*innen im Rahmen ihrer Forschung mit den schwachen Informationen generiert haben, senken die Anforderungen zum Einsatz von Tiefensch?tzungsmodellen. So reichen nun Toleranzbereiche oder relative Informationen über die einzelnen Pixel aus, um die jeweilige Tiefe richtig einzusch?tzen und hochqualitative Tiefenkarten zu erzeugen. Durch den damit erzielten Kostenvorteil konnte der potenzielle Anwendungsbereich von Methoden zur Tiefensch?tzung erweitert werden.
Weichenstellung für dreidimensionale Fotoaufnahmen mit dem Smartphone
Laut Lienen sei es durchaus denkbar, dass selbst Smartphones mit kostengünstigen Kamerasensoren in Zukunft standardm??ig mit einer hochqualitativen Tiefensch?tzung ausgestattet werden k?nnten. Auch für den Bereich Augmented Reality bedeuten die Forschungsergebnisse einen Zugewinn. ?Es ist m?glich, dass sich die bisher entwickelten Methoden ausweiten und auch auf Videoaufnahmen anwenden lassen. Dadurch lassen sich weitere kostengünstige Datenquellen erschlie?en, die die Generalisierbarkeit der erlernten Modelle erh?hen k?nnen. Gerade im Bereich der Augmented Reality k?nnten dann computergenerierte Szenen optisch so an die reale Lebenswelt angepasst werden, dass sich kaum ein Unterschied zur Realit?t festmachen l?sst“, zeigt Lienen abschlie?end auf.