Tensorflow Lite Posenet Demo APP
La estimación de pose se refiere a técnicas de visión por computadora que detectan figuras humanas en imágenes y videos, de modo que uno podría determinar, por ejemplo, dónde aparece el codo de alguien en una imagen. Es importante tener en cuenta el hecho de que la estimación de pose simplemente estima dónde están las articulaciones clave del cuerpo y no reconoce quién está en una imagen o video.
El modelo PoseNet toma una imagen de cámara procesada como entrada y emite información sobre puntos clave. Los puntos clave detectados están indexados por un ID de pieza, con una puntuación de confianza entre 0.0 y 1.0. La puntuación de confianza indica la probabilidad de que exista un punto clave en esa posición.
Benchmarks de desempeño
El rendimiento varía según el dispositivo y el paso de salida (mapas de calor y vectores de compensación). El modelo PoseNet es invariante en el tamaño de la imagen, lo que significa que puede predecir posiciones de pose en la misma escala que la imagen original, independientemente de si la imagen se ha reducido. Esto significa que configura el modelo para tener una mayor precisión a expensas del rendimiento.
El paso de salida determina cuánto se reduce la salida en relación con el tamaño de la imagen de entrada. Afecta el tamaño de las capas y los resultados del modelo.
Cuanto mayor sea el paso de salida, menor será la resolución de las capas en la red y las salidas y, en consecuencia, su precisión. En esta implementación, la zancada de salida puede tener valores de 8, 16 o 32. En otras palabras, una zancada de salida de 32 dará como resultado el rendimiento más rápido pero la precisión más baja, mientras que 8 dará como resultado la precisión más alta pero el rendimiento más lento. El valor inicial recomendado es 16.