Descriptive Camera™ est un objet de captation photographique permettant de générer la description textuelle d’une image numérique. Pour ce faire, la caméra est connectée à internet grâce à un câble Ethernet, et envoie l’image de la webcam à la plateforme web Amazon’s Mechanical Turk, un service permettant à un demandeur d'effectuer, en échange d’un paiement minimal, une tâche simple par un employé. Lorsque le travailleur effectue la traduction, celle-ci est renvoyée à la caméra pour impression, au prix de 1,25$ l’unité. Le nom de ce service développé par Amazon fait référence au célèbre canular historique de la fin du 18e siècle du Turc mécanique créé par Johann Wolfgang von Kempelen. Cette installation permettait à un participant de jouer aux échecs contre un prétendu automate situé derrière un bureau en érable. Cependant, à l’intérieur de celui-ci se trouvait un ensemble de mécanismes contrôlé par un humain. Les mécanismes en eux-mêmes étaient visibles par des ouvertures vitrées dans le meuble, tandis que l'espace de l'adversaire réel demeurait caché. La Descriptive Camera™ réactualise ce procédé mécanique illusoire qui peut être perçu comme une mise en scène archaïque d'intelligence artificielle. L'appareil de Matt Richardson permet aussi d’envoyer l’image à l’ensemble de ses contacts en ligne grâce au accomplice mode, afin que ceux-ci la déchiffrent.
La capture d’une scène grâce à l’appareil ne génère qu’une description écrite, substituant l'image par le texte. Les résultats obtenus par la caméra démontrent l'importance de l'écriture en tant qu'outil d'archivage et de description grâce à la pérennité de sa forme dans le temps, mais aussi la grande subjectivité qu'on peut lui associer en comparaison à la photographie.
Bien qu’au stade de prototype, la Descriptive Camera™ investit la problématique des datas liées aux images présentes sur le web, plus précisément celles de type descriptif. L'objet offre une réflexion sur la manière dont les données associées aux images sont créées et utilisés sur le web, ainsi qu'à leur monétarisation et au clientélisme dont elle sont l'objet et parfois la cause. Bien que des données de géolocalisation, de format, de date et d’heure soient générées automatiquement lors de la prise d’une photographie à l’aide d’un appareil connecté au web, celles liées au contenu de l’image demeurent générées par l’utilisateur, comme le démontrent les tags sur la plateforme Instagram, ainsi que l'identification d'utilisateurs sur Facebook. L’appareil de Richardson ouvre ainsi la possibilité d’associer contenu et image de manière automatique afin de faciliter l’archivage de l’ensemble de nos photographies numériques, permettant une classification plus exhaustive. Demeurant tributaire d’une action humaine, l’appareil de Richardson ne résout que partiellement les questions entourant la reconnaissance de contenu d'images grâce à la technologie numérique et l'intelligence artificielle, celles-ci ayant été par exemple investies par l'équipe d'ingénieurs et de chercheurs de Moodstocks depuis 2012. Descriptive Camera™ déstabilise notre croyance en la technologie web en tant qu'entité objective et non-humaine, et propose un imaginaire textuel qui renouvelle la perception de notre réalité grâce à des outils de reproduction technique.
Avec ce projet, Matt Richardson renverse le mode de fonctionnement de l'appareil photographique, en substituant le texte à l'image, l'archive écrite à celle visuelle. Une nouvelle relation à la capture du présent est ainsi développée. Il y a ainsi variation quant à la nature médiatique du produit généré par l'acte photographique, ici textuel. Cependant, puisque suite à la prise de photo, il suffit d’attendre de 3 à 6 minutes pour que l’appareil, composé d’une webcam et d’une imprimante thermique, imprime une description de la scène captée (à la manière d’un polaroïd), l'immédiateté relative de la démarche instaure elle aussi un certain rapport au présent - et au quotidien «photographié».
The Descriptive Camera works a lot like a regular camera - point it at subject and press the shutter button to capture the scene. However, instead of producing an image, this prototype uses crowd sourcing to output a text description of the scene. Modern digital cameras capture gobs of "parsable" metadata about photos such as the camera's settings, the location of the photo, the date, and time, but they don't output any information about the content of the photo. The Descriptive Camera only outputs the metadata about the content.
As we amass an incredible amount of photos, it becomes increasingly difficult to manage our collections. Imagine if descriptive metadata about each photo could be appended to the image on the fly - information about who is in each photo, what they're doing, and their environment could become incredibly useful in beain able to search, filter and cross-reference our photo collections. Of course, we don't yet have the technology that makes this practical proposition, but the Descriptive Camera uses crowd sourcing to explore these possibilities.