Tensorflow Lite Posenet Demo APP
L'estimation de la pose fait référence aux techniques de vision par ordinateur qui détectent les figures humaines dans les images et les vidéos, de sorte que l'on puisse déterminer, par exemple, où le coude de quelqu'un apparaît dans une image. Il est important d'être conscient du fait que l'estimation de la pose estime simplement où se trouvent les principales articulations du corps et ne reconnaît pas qui est dans une image ou une vidéo.
Le modèle PoseNet prend une image de caméra traitée comme entrée et fournit des informations sur les points clés. Les points clés détectés sont indexés par un identifiant de pièce, avec un score de confiance compris entre 0,0 et 1,0. Le score de confiance indique la probabilité qu'un point clé existe dans cette position.
Benchmarks de performance
Les performances varient en fonction de votre appareil et de la foulée de sortie (cartes thermiques et vecteurs de décalage). Le modèle PoseNet est invariant pour la taille de l'image, ce qui signifie qu'il peut prédire les positions de pose à la même échelle que l'image d'origine, que l'image soit réduite ou non. Cela signifie que vous configurez le modèle pour avoir une précision plus élevée au détriment des performances.
La foulée de sortie détermine dans quelle mesure la sortie est réduite par rapport à la taille de l'image d'entrée. Cela affecte la taille des couches et les sorties du modèle.
Plus la foulée de sortie est élevée, plus la résolution des couches du réseau et des sorties est petite et, en conséquence, leur précision. Dans cette implémentation, la foulée de sortie peut avoir des valeurs de 8, 16 ou 32. En d'autres termes, une foulée de sortie de 32 entraînera les performances les plus rapides mais la précision la plus faible, tandis que 8 se traduira par la précision la plus élevée mais les performances les plus lentes. La valeur de départ recommandée est 16.