← Retour au blog


Utiliser l'intelligence artificielle pour décrire une image

 

 

Il y a un peu plus de 4 ans nous avions testé la génération d'une balise alt avec l'AI de Google. Le résultat n'avait pas été concluant... 

Depuis 2019, les choses ont bien évolué ! Dans leur travail quotidien, nos consutlants web s'appuyent de plus en plus sur l'intelligence artificielle.

Alors nous avons refait ce test en 2024 avec les mêmes images en utilisant cette fois le modèle gpt-4-vision-preview d'OpenAI. Voici le résultat !

Le code du test est disponible ici (une clé API OpenAI est nécessaire).

 

1) Le test de la mangue

Lors de notre test de 2019, nous avions commencé par analyser une mangue tenue à bout de bras et Google reconnaissait les doigts mais pas la mangue...

 

accessibilité web : test d'analyse d'image

 

 

Résultats en 2024 : l'AI reconnaît la scène - elle voit même que c'est une mangue fraîche :) et elle respecte la longueur conseillée d'une balise alt.

prompt : "Generate an alternative french text tag for this image"

réponse de l'AI : "Mangue fraîche tenue à la main au premier plan sur un fond flou naturel"

 

A noter, l'AI ne répond pas toujours la même chose selon la structure de l'appel à l'API, nous avons aussi eu cette description qui convient également très bien :  "Une main tenant une mangue mûre devant un flou d'arrière-plan vert." la mangue est mûre maintenant 😀 !

 

 

 

2) La scène du barbier

Deuxième test amusant, la scène du barbier : Google avait bien détecté la scène mais alertait sur une possible violence de l'image :

accessibilité web : test d'analyse d'image

 

Résultats en 2024 :

Prompt : "Generate an alternative french text tag for this image"

Réponse de l'AI : "Rasage traditionnel chez le barbier"

Prompt : "Is this picture violent ?"

Réponse de l'AI :  "No, the picture is not violent. It shows a person getting a shave or some beard grooming, which is a normal activity at a barber's shop. The brush being used to apply shaving cream or lather is a common tool for this purpose, and there's nothing in the image to suggest anything violent."

That's a bingo !

 

Le résultat n'est pas vraiment traitable par une machine mais on peut demander à l'AI de noter la violence de l'image sur une échelle de 0 à 5 et de retourner un fichier au format json :

Prompt : "Return a json object rating the violence of the image on a scale of 0 to 5, 5 is very violent"

Réponse de l'AI :  {"violence_rating": 0"}

Pour l'image de la mangue : même score, elle ne voit pas de violence.

 

 

 

3) Les bulles

Dernier test, les images de savon en gros plan, Google n'avait pas reconnu les bulles, mais avait vu de l'eau :

accessibilité web : test d'analyse d'image

 

Résultats en 2024 :

Prompt : "Generate an alternative french text tag for this image"

Réponse de l'AI : "Gros plan abstrait de structures semblables à des bulles de glace aux teintes bleutées"

Autre réponse de l'AI : "Structure géométrique complexe de bulles bleutées translucides."

Un humain n'aurait pas fait mieux !

 

Au niveau coût, chaque appel coûte moins d'un cent. La rapidité de l'analyse est tout à fait minime par rapport au temps d'upload de l'image.

Les paramètres d'appel de l'API, la taille de l'image et les prompts peuvent être améliorés pour optimiser les coûts.

 

Conclusions du test

L'AI génère des textes alternatifs très pertinents d'images complexes et cela à un coût relativement faible. De plus, l'API d'OpenAI permet d'intégrer cette fonctionnalité dans n'importe quel outil web. Nous allons retrouver cette AI un peu partout, notamment les lecteurs d'écrans vont assurément intégrer cette fonctionnalité dans un avenir proche et donc il ne sera plus nécessaire de remplir les balises alt pour les lecteurs d'écrans. Reste à savoir quelles directives les moteurs de recherche vont adopter.

 

Le code est téléchargeable ici : https://bitbucket.org/rebe100x/test-ai-vision/

 

Crédits photos : un grand merci aux photographes qui ont mis en accès libre leurs photos : 

Daniele Levis Pelusi, Ardi Evans