Le développent rapide des IA a créer un demande pour des quantité de données que seul internet peut fournir. Malheureusement, aucune législation n’encadre encore ce type d’utilisation des données personnelles. Plusieurs litiges et controverses autour de ce sujet ont d’ailleurs fait les manchettes au cours de la dernière année.
Pour se développer et accroitre leur capacité, les intelligence artificielle comme ChatGPT doivent avoir accès à de grandes quantité d’informations. Même les entreprises ayant accès à des banques de données très vastes, comme OpenAI, continue de lorgner agressivement sur les données des autres.
Alors qu’Elon Musk avoue sans gêne avoir acquis X (autrefois Twitter) pour utiliser ses données afin d’alimenter ChatGPT, son entreprise se trouve tout de même visée par de nombreuses poursuites. OpenAI est ainsi accusé d’avoir utiliser sans autorisation les données d’artistes et d’entreprises pour alimenter son IA.
Les divers développeurs d’intelligence artificielle ont choisis différentes approches pour atteindre un objectif commun. Il s’agit de mettre la main sur vos données publiques disponibles sur le web. Les entreprises espèrent ainsi apprendre à leurs logiciels comment mieux vous imiter, et paraitre plus humain.
Le phénomène a même atteint l’industrie de l’hébergement web, depuis les décisions récentes d’Automattic, la maison-mère de WordPress. Les données de sa filiale d’hébergement web WordPres.com ont été vendues à OpenAI. Le plus inquiétant, est que l’information est devenu publique grâce aux médias numériques. L’entreprise avait conclu la vente sans en informer ses clients.
Nous avons cru bon rédiger cet article détaillé afin de vous informer sur cette réalité de plus en plus inquiétante. Il sera tout d’abord question de quelques conflits et transactions causés par l’appétit insatiable des IA pour des données. Nous aborderons ensuite quelques cas spécifiques, dont Automattic et Reddit.
Utilisation sans permission et litiges juridiques
Certaines entreprises de développement semblent avoir accès à des quantité suffisant de données pour leur besoins. Par exemple, Meta utilise les données publiques de Facebook, Instagram, Whatsapp et Messenger pour former ses modèles d’IA. Jusqu’à maintenant, personne n’a donc encore porté d’allégation de vol de données à l’encontre du géant.
D’autres entreprises se sont toutefois montrée moins disciplinées. L’absence de loi encadrant l’utilisation des données pour le développement d’IA a amené de conflits entourant la propriété intellectuelle. Les développeurs d’intelligences artificielles ont fréquemment utilisé les données d’entreprises ou même d’individus, sans en avoir la permission, afin d’affiner leurs logiciels.
Ces entreprises ont utilisé des données publiques extraites d’articles de presse, de livres et de projets créatifs, sans la permission de leurs créateurs. Elles ont utilisé ce contenu pour enseigner aux outils d’IA comment, par exemple, générer des articles de presse, des livres et des projets créatifs. Certaines des victimes de ces “vols” de données avaient les moyens de se défendre, et ont porté la chose devant les tribunaux.
Le New York Times poursuit actuellement OpenAI, le groupe dirigé par Elon Musk, derrière la plateforme ChatGPT. Le média américain accuse les développeurs d’avoir utilisé ses vastes archives sans son autorisation pour former les chatbots. OpenAI accuse pour sa part le Times d’avoir engagé « quelqu’un pour pirater » ChatGPT afin de prouver que le chatbot volait son contenu.
L’agence de photo et banque d’images Getty Images poursuit aussi l’IA de génération graphique Stable Diffusion pour violation de copyright. Celles-ci a d’ailleurs déjà été visées par d’autres poursuites, intentées par des auteurs et des créateurs. Ceux-ci étaient se plaignaient leurs œuvres ont été utilisées pour former des modèles d’IA, et ont connu des résultats mitigés devant les tribunaux.
Accords et ventes de données pour alimenter les IA
Alors que les litiges concernant les violations de propriétés intellectuelles se multiplient, certaines compagnies ont plutôt décidé de conclure des ententes. Une multitude d’accords, parfois secrets, ont ainsi vu le jour au cours des dernières années.
L’Associated Press a accordé une licence à OpenAI pour une partie de ses archives. Shutterstock, la banque de photos, a signé un contrat de six ans avec OpenAI pour fournir des données de formation. L’entente comprend l’accès à ses bases de données de photos, de vidéos et de musique.
Ces accords sont loin d’être les seuls à avoir eu lieu au cours des dernières années. Une multitude d’accords secrets a aussi été conclu, pour acquérir la majorité des données existantes.
Plusieurs entreprises de technologie paient même discrètement pour du contenu verrouillé derrière des barrières de paiement et des écrans de connexion. Ce commerce caché inclut vraiment n’importe quel type de données, y compris des journaux de discussion aux photos personnelles partagées sur des médias sociaux oubliés depuis longtemps.
WordPress.com et Tumblr: vos données servent à développer ChatGPT
L’entreprise derrière WordPress, Automattic, s’est trouvée au centre d’un controverse au mois de février dernier, concernant la vente de données de ses clients. Les données publiques des clients da filiale d’hébergement WordPress.com et de sa plateforme de microblog Tumblr son désormais vendu à OpenAI et MidJourney.
L’entente aurait possiblement été maintenue secrète, n’eut été d’une fuite menant à une publication du blog technologique 404 Media. De nombreux médias ont alors repris la nouvelle, soulevant la colère des clients de l’entreprise. Automattic s’était alors trouvée critiquée de toute part, la forçant à publier une nouvelle politique concernant l’utilisation des données.
L’entreprise a finalement ajusté les règles d’utilisation de ses services, pour offrir à ses clients de refuser le partage de leurs données. Le manque de transparence d’Automattic a toutefois suffit à inquiéter de nombreux clients, et même des entreprises partenaires.
Reddit vend vos données pour le développement des IA de Google
Les énormes archives de publications de Reddit sont en grande partie générées par le travail de contributeurs bénévoles. Les modérateurs non rémunérés des nombreux subreddit, supervisent les communautés d’utilisateurs qui ne sont pas non plus rémunérés. C’est la somme de leurs efforts collectifs sur Reddit qui rendent cette plateforme intéressante et précieuse.
Quand Reddit a annoncé son introduction en bourse, la société a donc contacté une sélection de modérateurs et d’utilisateurs publiant fréquemment pour leur offrir la possibilité d’acheter des actions avant les autres. Certains des destinataires de cette offre n’étaient pas très enthousiastes de voir leurs efforts être monnayés de la sorte.
Reddit n’a toutefois pas besoin de l’accord de ses utilisateurs pour profiter de leur travail. En réalité, la plateforme donc déjà vendu à Google, l’accès à leurs publications et messages.
Juste avant l’annonce de l’introduction en bourse, Reddit et Google ont conclu un accord. En retour de 60 millions de dollars par an, Google peut désormais accéder à l’API de Reddit. L’objectif de cet accord est, entre autres, de former ses modèles d’IA générative.
De moins en moins de données échappent aux IA
Les développeurs ont bien sûr commencé par exploiter les bases de données les plus vastes pour alimenter leurs IA. Ils ont par exemple visé les archives de Reuters et Associated Press avant celles moins volumineuses des médias locaux. Ils ont fait de même avec les grandes banques d’images ou de fichier vidéos.
Ces grandes archives de données sont toutefois insuffisante pour satisfaire l’appétit des IA pour des données. Les entreprises ont donc dû se montrer graduellement moins sélectives, et ramasser tout ce sur quoi elles pouvaient mettre la main.
L’année dernière, le Washington Post a examiné l’un des ensembles de données massives de données Internet publiques utilisées pour former des modèles d’IA génératifs. Les enquêteurs ont trouvé un peu de tout parmi les données analysées.
Ils ont notamment découvert des babillards de discussion de jeux populaires, dont World of Warcraft. On y retrouve aussi des données vendues par des plateformes comme Patreon et Kickstarter. L’ensemble de données incluait aussi le contenu exhaustif plusieurs dépôts énormes de blogs personnels, comme sites.google.com.
Comme certaines entreprises se passent d’autorisations pour utiliser les archives des autres, on peut se demander quelles données échappent encore à ce phénomène. Malgré le nombre de litige et l’ampleur du marché qui émerge autour des données, aucune législation n’encadre encore la formation des IA.
Pour conclure sur l’appétit des IA pour vos données
L’émergence des intelligences artificielles génère une demande sans précédent pour des données numériques. Apprendre à des intelligences numériques à imiter convenablement des humains demande de les exposer à des milliards d’interactions humaines. C’est pourquoi vos publications, vos photos, vos vidéos et vos messages sont désormais précieux pour plusieurs entreprises technologiques.
L’absence totale de législation pour encadrer l’utilisation de données dans le cadre de développement d’IA contribue à créer une course chaotique aux données. Les entreprises achètent ou même volent les données de tous et chacun, sans jamais consulter ou informer les utilisateurs.
L’ampleur du phénomène et les nombreux litiges légaux qu’il a engendré démontre le besoin de l’encadrer légalement. Il y a fort à parier qu’un ensemble de lois et règlements viendront d’ailleurs le définir au cours des prochaines années.
Nous espérons que cet article vous a plus et vous a éclairé sur la façon dont les développeurs d’IA se battent pour vos données. Si c’est le cas, nous vous invitons à consulter nos autres articles et comparatifs de notre blog. Vous y trouverez les informations les plus récentes sur l’industrie l’hébergement et sur la création de sites web.