3D morphable Model von Blanz und Vetter, 1999

Eine kleine Geschichte über 3DMM’s und Deep-Learning

Die Erstellung von 3D Modellen auf Basis von einzelnen Bildern ist ein in den letzten Jahren immer populärer werdendes Themengebiet, hilfreich hierbei sind sog. 3DMM’s (3D morphable models). Für die Gesichtserkennung ist es eine enorme Erleichterung ein 3D Modell des Gesichtes zu haben um dies in der Orientierung zu verändern und mit anderen Bildern besser vergleichen zu können. Oder anhand des Modells bessere Schätzungen für Position von Facial Feature Points[1] zu machen, was besonders bei verdeckten Gesichtsteilen oder stark gedrehter Haltung hilfreich ist.
Die Erstellung von Neuralen Netzen zur Lösung des Problems, der Rekonstruktion von 3D Modellen, wurde erst im letzten Jahr eine mögliche Option. Der Weg dorthin wird in diesem Beitrag beschrieben.

Das erste 3DMM

Im Jahr 1999 haben Blanz und Vetter[2] den Grundstein gelegt für die Generierung von lebensechten 3D Repräsentationen von Gesichtern. Diese Arbeit ist auch noch 17 Jahre nach der ersten Veröffentlichung eine der am häufigsten zitierten bei aktuellen Papern in diesem Themengebiet. In der Arbeit wurde ein 3DMM vorgestellt, das anhand von 200 Gesichtern erstellt wurde. Es handelt sich hierbei um 100 Frauen und 100 Männern von denen 3D Modelle erstellt und die Textur abgetragen wurde, die Scans wurden von CyberwareTM bereitgestellt. Die Firma vertrieb Geräte mit denen 3D-Scans von Personen erstellt werden konnten. Das Unternehmen existiert seit 2011 nicht, mehr Informationen gibt es unter cyberware.com . Eine Java-Implementierung des Modells von Blanz und Vetter kann hier heruntergeladen werden. Das Modell ermöglicht es mit mehreren Parametern eine vielzahl von unterschiedlichen realistischen Gesichtern zu erstellen. In dem Modell enthalten ist ein Algorithmus der für ein gegebenes Eingabebild, eines Gesichts, eine Rekonstruktion ausgibt. Diese Rekonstruktion wird über 105 Iterationen optimiert bis das Endergebnis dem Orginal verblüffend ähnlich sieht. Die Berechnung dieser Näherung dauerte damals knapp 50min.

Das 3D morphable model von Blanz und Vetter

Das Basel Face Model

Der erste Ansatz von Blanz und Vetter war gut aber hatte noch einige Nachteile, zum einen mussten die Bilder alle das Gesicht frontal zeigen und zum anderen waren nur gleichmäßig beleuchtete Gesichter gut rekonstruierbar. 10 Jahre nach dem ersten 3DMM hat dann Vetter[3] ein neues Modell erstellt das ohne diese Einschränkungen auf Bilder anwendbar war. Zur Erstellung dieses Modells wurden eigenst Aufnahmen getätigt und es wurden wie bereits im ersten 3DMM 200 Personen (100 weibl. 100 männl.) erfasst. Die Aufnahmen wurden mit dem Gerät ABW-3D getätigt, es entstehen zugleich 3 Bilder aus verschiedenen Posen. Die Auflösung des Gerätes übertrifft die anderer Vorrichtungen um das 3 (Cyberware) bis 8 (3Dmd) fache. Nach eigenen Aussagen sollte dieses Modell nun den Bedarf an Lerndaten für neuronale Netze decken. Das Modell wurde in Matlab entwickelt und steht
hier zur freien Verfügung.

Das verbesserte 3DMM von Vetter 2009

Erste CNN’s für 3D Gesichts Rekonstruktion

Lange passierte nichts auf dem Gebiet bis 2016 von Blanz und Piotraschke[4] eine Methode vorgestellt wurde die das 3DMM zusammen mit riesigen Datensätzen kombinierte um einen synthetischen Datensatz von Lerndaten zu generieren. Die Datensätze bestehen aus Bildern von Personen, wobei für jede Person mehrere Bilder zur Verfügung stehen. Diese Methode hat den Vorteil, dass durch unterschiedliche Fotos der gleichen Person eine gemittelte (bessere) Version der 3D Rekonstruktion möglich wurde.
Nur 3 Monate später veröffentlichte Richards et al.[5] ein CNN das auf einen ähnlich wie Blanz und Piotraschke erstellten Lerndatensatz 3D-Rekonstruktionen erstellte. Diese Technik in Kombination mit einem shape-from-shading Algorithmus war nun in der Lage effizient 3D Modelle zu erschaffen.

CNN von Richards et al. 2016

Im Dezember wurde von Tran et al.[7] eine weitere Arbeit vorgestellt die die Berechnungszeit nun noch um einiges verringerte. So können Parameter für ein 3DMM innerhalb von durchschnittlich 88ms errechnet werden. Das Modell ist nicht nur schnell sondern auch sehr genau, laut den Verfassern ist es das bisher beste Verfahren für Gesichtserkennung das ihnen bekannt ist.

Very Deep Neural Network, Tran, 2016

Ein neues 3DMM basierend auf dem MeIn3D Dataset

Auf der gleichen Konferenz auf der auch Blanz und Piotraschke ihr Paper, über Lerndaten Generierung, vorstellten wurde ein weiterer Beitrag veröffentlicht. In dem Beitrag von Booth et al.[6] wurde ein 3DMM vorgestellt das auf dem MeIn3D Datensatz basierte. Dieser Datensatz wurde bereits im Beitrag Lerndatensätze erwähnt. Der Datensatz beruht auf ca 10.000 Gesichtern die 2012 im Londoner Science Museum von Besuchern aufgenommen wurden. Das Modell ist ab Januar 2017 für medizinische Forschung freigegeben, ob eine breitere Veröffentlichung geplant ist, ist bisher nicht bekannt. Ein großer Vorteil dieses 3DMM ist das wesentlich mehr verschieden Gesichtsausprägungen vorliegen, so sind zum Beispiel alle Ethnien vertreten. In vielen Arbeiten ist der Mangel an Diversifikation häufig ein Grund für fehlerhafte generierte 3D-Modelle.

Fazit

Die Entwicklung von CNN’s für single image 3d face reconstructions hat seit 2016 bereits erste Früchte getragen. Wichtig für die Entwicklung von Deep Neural Networks sind einerseits die 3DMM’s und zum anderen die Algorithmen zum Fitting der Parameter. Die Hürden die bis zu diesem Zeitpunkt unüberwindbar schienen, Lerndaten Knappheit und zu viele Output Knoten, sind augenscheinlich durch 3DMM’s genommen worden. Die Erstellung von Lerndaten mittels 3DMM’s und Schätzung von Parametern als Output Knoten machen die Methode nun schließlich durchführbar.

Die Ergebnisse in den letzten Beiträgen sind erstaunlich und veranschaulichen welches große Potential Deep-Learning, im Bereich Genauigkeit und Schnelligkeit, bietet. Das Thema ist enorm gefragt und wird in den nächsten Monaten, auf Grund der enormen Erfolge, wohl noch mehr Aufwind erfahren. Man kann gespannt sein auf die nächsten Arbeiten in dem Bereich.

Referenzen

[1] Jun 2016, Large-pose Face Alignment via CNN-based Dense 3D Model Fitting, Jourabloo, Liu http://cvlab.cse.msu.edu/pdfs/Jourabloo_Liu_CVPR2016.pdf
[2] 1999, A Morphable Model For The Synthesis Of 3D Faces, Volker Blanz, Thomas Vetter, http://www.cs.cmu.edu/~efros/courses/AP06/Papers/Blanz-siggraph-99.pdf
[3] 2009, A 3D Face Model for Pose and Illumination Invariant Face Recognition, Vetter et al, http://gravis.dmi.unibas.ch/publications/2009/BFModel09.pdf
[4] Jun 2016, Automated 3D Face Reconstruction from Multiple Images Using quality Measures, Blanz, Piotraschke, http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Piotraschke_Automated_3D_Face_CVPR_2016_paper.pdf
[5] Sep 2016, 3D Face Reconstruction by Learning from Synthetic Data, Richards et al., https://arxiv.org/pdf/1609.04387.pdf
[6] Jun 2016, A 3D Morphable Model learnt from 10,000 faces, Booth et al., http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Booth_A_3D_Morphable_CVPR_2016_paper.pdf
[7] Dez 2016, Regressing Robust and Discriminative 3D Morphable Models with a very Deep Neural Network, Tran et al., https://arxiv.org/pdf/1612.04904.pdf, Code unter https://github.com/anhttran/3dmm_cnn

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.