Tensorflow Lite Posenet Demo APP
Die Posenschätzung bezieht sich auf Computer-Vision-Techniken, mit denen menschliche Figuren in Bildern und Videos erkannt werden, sodass beispielsweise festgestellt werden kann, wo der Ellbogen einer Person in einem Bild zu sehen ist. Es ist wichtig, sich der Tatsache bewusst zu sein, dass die Posenschätzung lediglich schätzt, wo sich wichtige Körpergelenke befinden, und nicht erkennt, wer sich in einem Bild oder Video befindet.
Das PoseNet-Modell verwendet ein verarbeitetes Kamerabild als Eingabe und gibt Informationen zu Schlüsselpunkten aus. Die erkannten Schlüsselpunkte werden durch eine Teile-ID mit einem Konfidenzwert zwischen 0,0 und 1,0 indiziert. Der Konfidenzwert gibt die Wahrscheinlichkeit an, dass an dieser Position ein Schlüsselpunkt vorhanden ist.
Leistungsbenchmarks
Die Leistung hängt von Ihrem Gerät und dem Ausgabeschritt ab (Heatmaps und Offset-Vektoren). Das PoseNet-Modell ist bildgrößeninvariant, dh es kann Posenpositionen im gleichen Maßstab wie das Originalbild vorhersagen, unabhängig davon, ob das Bild verkleinert ist. Dies bedeutet, dass Sie das Modell so konfigurieren, dass es auf Kosten der Leistung eine höhere Genauigkeit aufweist.
Der Ausgabeschritt bestimmt, um wie viel die Ausgabe im Verhältnis zur Größe des Eingabebilds verkleinert wird. Dies wirkt sich auf die Größe der Ebenen und die Modellausgaben aus.
Je höher der Ausgabeschritt ist, desto geringer ist die Auflösung der Schichten im Netzwerk und der Ausgänge und entsprechend deren Genauigkeit. In dieser Implementierung kann der Ausgabeschritt Werte von 8, 16 oder 32 haben. Mit anderen Worten, ein Ausgabeschritt von 32 führt zu der schnellsten Leistung bei geringster Genauigkeit, während 8 zu der höchsten Genauigkeit bei langsamster Leistung führt. Der empfohlene Startwert ist 16.