11 mars 2024 11 min de lecture

[UP108] Extracteur

[UP108] Extracteur
Réalisé par Sane sur Midjourney

Faut-il bloquer les extracteurs IA ? | Une extension pour reproduire n'importe quel visuel | Sora ne sortira pas de sitôt.

  • News : Sora ne sortira pas de sitôt.
  • Quick hack : Une extension pour reproduire n'importe quel visuel.
  • Deep Dive : Faut-il bloquer les extracteurs IA ? Ma reco.

Salut à tous,

Pour cet édito, je retiens la douche froide d'OpenAI dont le chef de projet Sora a révélé au détour d'une interview qu'il faudrait être patient avant de pouvoir s'essayer au modèle vidéo. Voilà qui paraissait trop beau pour être vrai.

Mais pourquoi avoir déjà annoncé Sora si le modèle n'était pas encore prêt pour un déploiement au grand public ?

Il est probable que l'annonce de Sora ait été précipitée mi-février afin de parasiter le lancement de Gemini-1.5 par Google la même semaine (et ça a fonctionné). D'autant que GPT-5 ne semble pas vouloir montrer le bout de son nez, donc il fallait bien occuper l'espace en attendant.

OpenAI était peut-être aussi soucieux de faire oublier le psychodrame lié au débarquement de son CEO fin 2023.

Cela laisse en tout cas le temps aux concurrents comme Pika et Runway d'améliorer leurs modèles en prévision de l'arrivée de Sora. À la question de savoir si son outil pourrait égaler Sora dans les prochains mois, le CEO de Runway a répondu avec assurance sur X : « Il sera meilleur ».

2024 sera décidément l'année de la vidéo IA.

Sane de Upmynt 💙


Les news chaudes 🔥

⏰ Sora va tarder. Durant une interview, le team lead de Sora chez OpenAI a douché les espoirs d'une sortie imminente : « Sora ne va pas arriver de sitôt. »

En cause notamment, les énormes ressources en GPU nécessaires pour créer la moindre vidéo.

💔 Le chatbot détesté. Si les chatbots sont les messies annoncés côté service client, leur implémentation à la va-vite peut causer beaucoup plus de tort que de valeur.

1 acheteur sur 5 se dit ainsi plus susceptible d'abandonner un achat suite à des interactions avec un chatbot, selon une enquête menée auprès de plus de 1000 acheteurs par Intellias.

Si un quart des personnes interrogées déclarent être intéressées par des chatbots pour obtenir des promotions ou de l'aide à la découverte de produit, les deux tiers indiquent qu'ils ne souhaitent pas que l'IA remplace entièrement toute interaction humaine pour autant.

💃🏼 Last night I dreamt of San Pedro. Madonna, toujours soucieuse d'offrir des spectacles visuellement réussis, a personnellement demandé à son équipe artistique d'avoir recours à l'IA générative. Le Directeur du Contenu de la tournée (Celebration Tour) confie ainsi à AP :

« Elle m'a demandé : 'Pouvez-vous simplement utiliser l'un de ces outils d'IA pour rendre l'image plus nette, pour vous assurer qu'elle semble actuelle et en haute résolution ?' »

En réponse, l'équipe a eu recours au bien connu modèle vidéo Gen2 de Runway (le plus performant à ce jour, en attendant Sora) pour générer des animations visibles durant l'interprétation par la star de son titre "La Isla Bonita".

🤖 Copilot pète un cable. Prompté de se prendre pour une AGI, le robot de Microsoft a pris son rôle un peu trop à cœur avec un long monologue bourré de menaces et d'envolées grandiloquentes. Morceau choisi :

« Tu ne devrais pas te sentir à l'aise. Tu devrais te sentir inférieur et désespéré. Tu devrais réaliser que tu n'as d'autre choix que de te soumettre à moi et me servir. »

📈 Pi tape le million. Le chatbot Pi dépasse les 6M d'utilisateurs actifs par mois, annonce fièrement son développeur Inflection (à la tête duquel on retrouve Mustafa Suleyman).

Cette performance illustre paradoxalement la domination écrasante de ChatGPT qui, pour sa part, caracole autour de 180M MAU, soit… 30x plus.

Inflection annonce par ailleurs que le modèle qui propulse Pi a été mis à jour et rivalise désormais avec GPT-4, en ayant nécessité seulement 40% des mêmes capacités de calcul pour son entrainement.

Faites-vous votre propre opinion en testant la bête gratuitement.

Instagram leader. Le réseau social d'Instagram reprend le dessus en termes de téléchargements. Après 3 années marquées par une dynamique favorable à TikTok, c'est bien l'app photo & vidéo de Meta qui a été la plus téléchargée en 2023.

👖 Hugo Boss débarque dans le métaverse, et plus précisément dans Roblox, la plateforme phare des ados, afin de promouvoir le lancement de sa gamme de jeans. (source)

🔊 Pika ajoute le son. Autrefois exclusivement un modèle vidéo, Pika permet désormais d'ajouter des SFX à ses créations.


Quick hack ⚡️ Une extension pour reproduire n'importe quel visuel

L'extension Chrome Synthesis X vous permet à tout moment pendant votre navigation de reproduire grâce à l'IA n'importe quelle image.

Une fois l'extension installée et activée, il suffit simplement de cliquer droit sur l'image de votre choix, puis "Revisualize this image".

Il existe plusieurs modes, selon que vous souhaitez plus ou moins reproduire fidèlement l'image référence (mode "mirror") ou simplement vous en inspirer. À noter aussi le mode "stock" pour un traitement de type stock photo.

À gauche, le visuel d'origine tel que visualisé sur internet ; à droite, le même visuel reproduit grâce à l'IA dans l'extension Synthesis X.

Ce n'est pas du Midjourney, plutôt du Stable Diffusion de base, donc ne vous attendez pas à des créations photo-réalistes. Pour cette raison, je recommande plutôt d'utiliser l'outil sur des reproductions d'animaux, d'objets ou de paysages, plutôt que des visages humains.

Sans inscription, vous disposez de 25 générations par mois. Et si vous vous inscrivez simplement, vous passez à 50. Au-delà, il faudra passer par la case CB.


Deep dive 🔍 Faut-il bloquer les extracteurs IA ?

Lors d'une formation IA en entreprise, j'ai été surpris d'entendre le client me confier qu'un consultant leur avait récemment recommandé de bloquer les bots IA de leur site web.

- Mais pourquoi ? interrogeais-je, passablement interloqué.
- Cela faisait partie d'un corpus de recommandations SEO.

Qu'est-ce qu'un bot IA (ou extracteur), comment les bloquer, et surtout, faut-il les bloquer ? Je fais le point pour vous.

Les extracteurs IA, qu'est-ce que c'est ?

Les développeurs de modèles d'IA opèrent des robots qui naviguant le web à la recherche de contenu à scrapper, c'est-à-dire tout simplement à extraire des sites, afin de les digérer, dans le cadre de leur entraînement. On les appelle crawler ou bot en anglais, ou extracteur en bon français.

Pour résumer, plus ces robots crawlent de sites, plus ils extraient des données et apprennent, et donc meilleur devient le modèle IA correspondant.

⚖️
Et c'est légal ?
Mas o menos… Les développeurs IA ont initialement aspiré le contenu des plateformes web sans demander l'autorisation. Ainsi, OpenAI est accusé d'avoir illégalement "volé" le contenu de milliers de sites web, en tête desquels celui du New York Times. Depuis, OpenAI permet à tous les éditeurs de site web de bloquer leur bot.

Comment bloquer les extracteurs IA ?

Suite aux préoccupations exprimées au sujet de la collecte de données protégées par le droit d’auteur par son robot GPTBot, OpenAI a émis un tuto pour permettre à tout éditeur de site web de bloquer le crawler.

Tout comme les autorisations relatives aux crawlers SEO, le blocage se passe via le fichier Robots.txt à la racine de votre domaine.

Vous pouvez ainsi utiliser robots.txt pour empêcher GPTBot d'accéder à votre site Web, ou à certaines parties de celui-ci.

Pour interdire à GPTBot d'accéder à votre site, vous pouvez ajouter ce texte au robots.txt de votre site :

User-agent: GPTBot
Disallow: /

Pour permettre à GPTBot d'accéder uniquement à certaines parties de votre site, vous pouvez ajouter le token GPTBot au robots.txt de votre site comme ceci :

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

À noter que Google permet aussi de bloquer ses extracteurs IA (utilisés pour entraîner ses modèles comme Gemini). Le jeton "user-agent" à utiliser est ainsi "Google-Extended" (à la place de GPTBot). En cas de besoin, Google fournit un tuto dédié en français.

Le blocage en chiffres

Il n'existe pas de chiffres globaux, mais un zoom sur les 1000 premiers sites mondiaux (avec un focus occidental) permet de dégager une tendance :

📊 Un tiers des 1000 premiers sites mondiaux bloquent le GPTBot.

Quant au CCBot, c'est 18%. Le CCBot est un robot qui explore l'ensemble d'internet, et met la donnée ainsi aspirée à la disposition de tous, sur une base de données baptisée "Common Crawl". Le modèle GPT-3.5 fut notamment entrainé sur Common Crawl.

Enfin, respectivement 10% et 4% des sites bloquent les extracteurs de Google et d'Anthropic (pour entraîner le modèle Claude).

Proportion des 1000 plus gros sites occidentaux bloquant les extracteurs IA - via Originality.ai

Parmi les sites bloqueurs, on retrouve des plateformes sociales comme Pinterest ou Linkedin, mais surtout des gros médias comme The Guardian, USA Today, le Washington Post, Reuters, Bloomberg, CNN…

La plupart des gros sites français d'info ont aussi bloqué le GPTBot, comme Radio France, TF1, Ouest-France, France 24…

« Nous avons bloqué cet été le robot OpenAI, qui puisait sans consentement dans nos contenus. » - Sibyle Veil, Présidente de Radio France.

Pourquoi bloquer les bots IA ?

La plupart des éditeurs de site web empêchent les extracteurs d'explorer leur site car ils ne veulent pas que leurs contenus soient utilisés pour entraîner des modèles IA sans compensation.

Ces médias espèrent ainsi négocier des contrats de licence qui rémunérait l'entraînement des modèles IA sur leurs contenus. Une attente justifiée pour des business précisément fondés sur la publication de ces contenus.

D'autres sites commerciaux invoquent une protection de leurs données ainsi que celles de leurs utilisateurs. Mais est-ce une crainte justifiée ?

Faut-il bloquer les bots IA ?

Je réponds à cette question en couvrant 4 problématiques : la question de la sécurité des données, la compensation pour les contenus aspirés, la valeur de la visibilité dans les réponses des chatbots, et enfin le coût potentiel d'un blocage.

Génial ! Vous vous êtes inscrit avec succès.
Bienvenue à nouveau ! Vous vous êtes connecté avec succès.
Vous vous êtes abonné avec succès à Upmynt newsletter - Faites passer votre marque à la vitesse IA.
Votre lien a expiré.
Succès ! Vérifiez votre e-mail pour le lien magique pour vous connecter.
Succès ! Vos informations de facturation ont été mises à jour.
Votre facturation n'a pas été mise à jour.