Inteligencia Artificial predice gestos escuchando sólo tu voz

Ciencia #tecnología #inteligencia artificial

Investigadores crearon un software que predice las expresiones corporales de una persona sólo gracias a lo que dice. Mirá el video.

Belén Drugueri

21 de Junio de 2019

Inteligencia Artificial predice gestos escuchando sólo tu voz

Cada vez que hablás, tu cuerpo se mueve en sincronía, ya sea algo tan sutil como ojos que se agrandan por estar remarcando una palabra en especial, o movimientos más extremos como agitar los brazos, o aplaudir al compás de una sílaba. Ahora, varios investigadores diseñaron un software con Inteligencia Artificial que sabe cómo se moverá una persona basándose únicamente en el sonido de la voz.

Los desarrolladores grabaron 144 horas de video de 10 personas diferentes que hablaban. Los convocados fueron una profesora de química, una monja, y cinco presentadores de programas de televisión: Conan O'Brien, Ellen DeGeneres, John Oliver, Jon Stewart y Seth Meyers. Utilizaron un algoritmo que ya existía para producir figuras con "palitos" (esqueléticas) que representan las posiciones de los brazos y las manos de la persona que está hablando. Después, entrenaron su propio algoritmo con esos datos para que pudiera predecir los gestos basándose en el nuevo audio de los altavoces.

Los gestos generados por el software fueron mucho más cercanos a la realidad que los que se seleccionaron al azar del mismo orador. Otro software parecido, diseñado originalmente para anticipar los movimientos de las manos de violinistas y pianistas, ya habia sido desarrollado. Se lo usó para comparar las diferencias con el primero en cuestión, pero estas predicciones también fueron superadas.

También se recurrió al entrenamiento de una persona para predecir los gestos de otra, pero tampoco funcionó tan bien como el software. Alimentar los gestos pronosticados en un algoritmo de generación de imágenes existente llevó a videos semirrealistas, como se ve en el video que pusimos arriba. El siguiente paso del equipo de desarrolladores es predecir gestos basados no solo en el audio, sino también en las transcripciones mismas.

Las aplicaciones potenciales incluyen la creación de personajes animados, robots que se mueven naturalmente o firmas de movimiento de personas para identificar videos falsos.