in

La nouvelle IA de Disney est la reconnaissance faciale pour l’animation

graphique des connaissances steve jobs

Engadget

« Donc, si un animateur travaillant sur une nouvelle saison de Clone Wars veut trouver un type spécifique d’explosion qui s’est produit il y a trois saisons ou une référence à faire sur quelque chose pour cette saison en cours, cette personne a dû passer des heures sur YouTube à passer en vidéo parce que vous ne pouvez pas trouver cela en regardant simplement les titres des épisodes.  » Mais à l’aide de cette plateforme, l’animateur pourra simplement rechercher les métadonnées requises.

Le projet a commencé sérieusement en 2016 après quelques années d’enquête, a déclaré Accardo. « Il s’agissait vraiment de préparer une entreprise comme Disney, [which was] opérant au sens traditionnel de la diffusion et de la distribution de vidéos à domicile, de quoi aurions-nous besoin pour tirer parti des différences entre une plate-forme vidéo numérique avec accès direct aux consommateurs et les méthodes de distribution traditionnelles.

Mais construire un tel système à partir de zéro n’est pas une mince affaire. Le développement d’une taxonomie fonctionnelle et robuste est vital, a poursuivi Accardo, «surtout si vous allez générer beaucoup de métadonnées différentes pour beaucoup d’attributs différents. Vous devez commencer à réfléchir à la façon dont vous allez gérer ces termes et ces étiquettes. Si vous laissez ces taxonomies devenir incontrôlables, il sera difficile d’exploiter les données résultantes que vous générez d’une manière sophistiquée et évolutive. »

L’équipe a ensuite créé ce qu’elle décrit comme «le premier pipeline de marquage automatisé», selon un article de Medium publié jeudi. «Le balisage de contenu est un élément important de l’utilisation par DTCI de l’apprentissage supervisé, qui est régulièrement utilisé dans des cas d’utilisation personnalisés qui nécessitent une détection spécifique», a écrit l’équipe DTCI. «Le balisage est également le seul moyen d’identifier un grand nombre d’informations hautement contextuelles sur l’histoire et les personnages à partir de données structurées, comme les intrigues, les archétypes de personnages ou les motivations.»

Le pipeline a exploité le logiciel de reconnaissance faciale existant, que l’équipe DTCI a ensuite appliqué à son catalogue de films et d’émissions de télévision. Le module a réussi à détecter et à reconnaître les visages humains à partir de l’action à l’écran. Après ce succès initial, l’équipe a pu également entraîner le système à détecter des emplacements spécifiques.

voitures

Disney Pixar

Mais reconnaître le visage d’un humain à partir d’une vidéo en direct est une tâche très différente de celle d’apprendre à une IA à repérer les visages animés. « Le visage d’un personnage dans Cars a des propriétés humaines mais il ne ressemble pas à un visage humain », a déclaré Miquel Àngel Farré, directeur de la recherche et du développement de DTCI. «Par conséquent, nous avons besoin de quelque chose qui puisse apprendre le concept abstrait de« visage », et avec l’apprentissage automatique traditionnel, c’était très compliqué. Mais grâce à un apprentissage approfondi, nous avons pu y parvenir. »

L’équipe a essayé d’appliquer le modèle de reconnaissance faciale en direct à du contenu animé, mais avec des résultats mitigés. Il s’avère que les méthodes d’apprentissage automatique utilisées, telles que HOG + SVM, fonctionnent bien pour sélectionner les changements de couleur, de luminosité et de texture, a écrit l’équipe dans son article Medium, mais elle ne pouvait que détecter les caractéristiques humaines – deux yeux, un le nez et la bouche – s’ils étaient dans des proportions humaines générales. En tant que tel, l’utilisation de ce système pour étiqueter Monsters Inc. était tout de suite sortie.

Disney

Disney

Ils ont ensuite annoté quelques centaines d’images de deux émissions d’animation Disney Junior, Elena of Avalor et The Lion Guard, et ont tenté de former le système à l’aide de ces petits échantillons, mais cela a également donné des résultats décevants. L’équipe n’avait d’autre choix que de se tourner vers des méthodes d’apprentissage approfondi pour former le système de reconnaissance faciale animée. «Pour les personnages animés, c’était vraiment une de ces choses qu’il n’y avait pas d’autre moyen de le faire, a expliqué Farré. « C’est vraiment ce qui fonctionne bien. »

Le problème avec cela, cependant, est que les ensembles de données de formation en apprentissage profond sont par nature massifs. Au lieu de cela, l’équipe a utilisé les échantillons dont elle disposait déjà pour affiner une architecture de détection d’objets Faster-R CNN qui avait déjà été formée pour détecter des visages animés à l’aide d’un ensemble de données différent de Disney. Fondamentalement, au lieu de former une toute nouvelle architecture en utilisant d’énormes quantités de contenu Disney, l’équipe a utilisé la méthode plus rapide pour prendre une architecture existante et déjà formée et l’adapter à leur contenu spécifique.

Après avoir légèrement ajusté l’ensemble de données pour corriger les résultats faussement positifs, l’équipe a combiné son détecteur de reconnaissance faciale animé avec d’autres algorithmes tels que les trackers de boîte englobante pour raccourcir le temps de traitement et améliorer l’efficacité. « Cela nous a permis d’accélérer le traitement, car moins de détections sont nécessaires, et nous pouvons propager les visages détectés à toutes les images », a écrit l’équipe.

Le processus de balisage n’est pas entièrement automatisé, les humains surveillent les résultats générés par le système, selon la façon dont ces données sont utilisées. « Si c’est quelque chose qui va alimenter une fonctionnalité destinée aux consommateurs, une recherche destinée aux consommateurs ou, vous savez, une série », a déclaré Accardo, « alors nous voudrions nous assurer que le classificateur est formé, très précis et personnalisé à ce contenu. Nous exécutons ces résultats via notre plate-forme d’assurance qualité et nous les avons contrôlés par des humains. »

Cette technologie pourrait également s’avérer révolutionnaire pour les consommateurs. Étant donné que le système peut être appliqué à «tous les [Disney’s] studios, tous les réseaux de diffusion, de ESPN aux longs métrages en passant par les réseaux de télévision « , comme le souligne Accardo, vous seriez en théorie en mesure de rechercher tous les épisodes d’une série contenant un personnage ou accessoire récurrent mineur spécifique, ou ont été tournés dans un endroit spécifique, ou présentent une séquence d’action spécifique. Les moteurs de recommandation et de découverte pourraient devenir plus précis et plus efficaces pour déterminer le type de contenu que les téléspectateurs recherchent sans les résultats entravés que nous voyons des services de streaming d’aujourd’hui.

À l’avenir, Accardo et l’équipe espèrent étendre davantage la capacité du système à comprendre les concepts généralisés en tirant parti des techniques d’apprentissage automatique multimodal. «En 2014, 2015, nous avons eu cette conversation sur les refroidisseurs d’eau pour identifier automatiquement une arrestation», a expliqué Accardo. « Nous ferions cela en utilisant le traitement du langage naturel contre le script, en utilisant la reconnaissance du logo pour identifier comme un badge d’un policier, en utilisant toutes ces différentes choses pour identifier un concept qui n’est pas clairement visible ou audible. »

Mais avant que cela ne se produise, davantage de recherche et développement sont nécessaires. « La chose à propos de l’apprentissage automatique et de l’IA est que les choses qui sont basées sur la non-compréhension de tout le contexte sont plus difficiles », a déclaré Accardo. « Vous devez commencer par les choses clairement identifiables, puis vous pouvez passer à l’apprentissage automatique multimodal. »

« L’utilisation de l’inférence, l’utilisation de graphiques de connaissances, l’utilisation de la sémantique, pour vraiment enrichir votre capacité à automatiser la capture du contexte humain et de la compréhension », a-t-il conclu, « pour moi, c’est super excitant. »

Monster Train obtient une mise à jour du contenu Wild Mutations

Ce livre d’art Kirby à 22 $ est tout ce dont j’ai besoin en ce moment