L’IA, un nouveau marché florissant pour les données issues de startups en faillite
Alors que la quête de données pour entraîner les intelligences artificielles devient de plus en plus intense, un nouveau marché parallèle a émergé : la vente des archives numériques de startups aujourd’hui disparues. Des entreprises spécialisées dans la liquidation d’actifs numériques transforment ainsi les emails, les messages Slack et le code source de ces jeunes pousses en précieuses matières premières pour les laboratoires d’IA, offrant un nouveau débouché financier aux fondateurs déchus.
Une « ruée vers l’or » pour les données d’entreprise
Des sociétés comme SimpleClosure, avec sa plateforme « Asset Hub », ou encore Sunset, se positionnent sur ce créneau. Elles proposent aux fondateurs de startups en faillite de monétiser leurs données numériques. Dori Yona, PDG de SimpleClosure, décrit cette activité comme une « véritable ruée vers l’or », soulignant que sa société a déjà traité une centaine de transactions, générant plus d’un million de dollars redistribués aux fondateurs. Ces plateformes valorisent particulièrement les données sectorielles (santé, finance) et les historiques d’interactions bien interconnectés.
La pénurie de données stimule le marché
Cette tendance s’inscrit dans un contexte où les données publiques traditionnelles, comme Wikipédia ou Reddit, arrivent à saturation. Les chercheurs en IA, notamment ceux développant des agents capables d’accomplir des tâches spécifiques en entreprise, recherchent des ensembles de données plus réalistes, reflétant les complexités et les imperfections du monde professionnel. Les données synthétiques, trop parfaites, s’avèrent moins efficaces pour entraîner des IA destinées aux environnements de travail réels.
Cette pénurie a favorisé l’émergence des « gymnases d’apprentissage par renforcement ». Il s’agit d’environnements virtuels créés à partir d’archives d’entreprises réelles, où les IA s’entraînent à naviguer dans des simulations de bureau. Des entreprises comme AfterQuery proposent des « mondes » thématiques tels que « Big Tech World », « Finance World » ou « Tax World » pour ces entraînements. Des géants comme Anthropic envisageraient d’y investir massivement, et des sociétés comme Scale AI, Surge et Mercor s’engouffrent également sur ce marché prometteur.
Questions éthiques et juridiques soulevées
Malgré l’attrait économique, cette pratique soulève d’importantes questions éthiques et juridiques, notamment concernant le consentement des anciens employés. Juridiquement, les employés cèdent souvent leurs droits de propriété intellectuelle sur leurs productions professionnelles dès l’embauche, conférant à l’employeur la pleine propriété des données générées dans l’espace de travail, y compris les messages privés.
Cependant, des experts comme Marc Rotenberg, du Center for AI and Digital Policy, estiment que ces données, bien que professionnellement produites, restent personnelles et identifiables. La cession des droits de propriété intellectuelle ne résoudrait pas, selon lui, le problème de la revente de communications internes à des tiers. Son organisation a d’ailleurs interpellé le Sénat américain pour une surveillance accrue de la part de la FTC.
Les défis de l’anonymisation
Si les entreprises acquéreuses affirment prendre l’anonymisation au sérieux, sa mise en œuvre s’avère techniquement complexe et peu fiable. Des recherches antérieures ont démontré que les grands modèles de langage peuvent mémoriser et restituer mot pour mot des séquences de leurs données d’entraînement, rendant possible l’extraction d’informations sensibles via des « prompts » spécifiques.
Cette situation crée un marché gris où des données potentiellement sensibles, issues d’interactions professionnelles privées, sont revendues pour entraîner des IA, soulevant des inquiétudes quant à la protection de la vie privée et à la sécurité des données personnelles.









