Il n’y a pas lieu de s’inquiéter que vos conversations secrètes ChatGPT aient été obtenues suite à une récente violation des systèmes d’OpenAI. Le piratage lui-même, bien que troublant, semble avoir été superficiel, mais il rappelle que les entreprises d’IA sont rapidement devenues l’une des cibles les plus juteuses pour les pirates informatiques.
Le New York Times a rapporté le piratage de manière plus détaillée après que l’ancien employé d’OpenAI, Leopold Aschenbrenner, y ait fait allusion récemment dans un podcast . Il l’a qualifié d’« incident de sécurité majeur », mais des sources anonymes de l’entreprise ont déclaré au Times que le pirate n’avait eu accès qu’à un forum de discussion d’employés. (J’ai contacté OpenAI pour confirmation et commentaire.)
Aucune faille de sécurité ne doit être considérée comme anodine, et écouter les discussions internes sur le développement d’OpenAI a certainement son utilité. Mais il ne s’agit pas d’un hacker qui aurait accès aux systèmes internes, aux modèles en cours de développement, aux feuilles de route secrètes, etc.
Mais cela devrait nous effrayer de toute façon, et pas nécessairement à cause de la menace de la Chine ou d’autres adversaires qui nous dépasseraient dans la course aux armements de l’intelligence artificielle. Le fait est que ces entreprises d’intelligence artificielle sont devenues les gardiennes d’une quantité énorme de données très précieuses.
Parlons de trois types de données créées par OpenAI et, dans une moindre mesure, par d’autres sociétés d’IA ou auxquelles elles ont accès : les données de formation de haute qualité, les interactions utilisateur en masse et les données clients.
On ne sait pas exactement quelles sont les données d’entraînement dont disposent ces entreprises, car elles sont extrêmement discrètes sur leurs réserves. Mais il serait erroné de penser qu’il s’agit simplement d’énormes piles de données Web récupérées. Certes, elles utilisent des scrapers Web ou des ensembles de données comme Pile, mais transformer ces données brutes en quelque chose qui puisse être utilisé pour entraîner un modèle comme GPT-4o est une tâche gargantuesque. Cela nécessite un nombre considérable d’heures de travail humain , et cela ne peut être automatisé que partiellement.
Certains ingénieurs en apprentissage automatique ont émis l’hypothèse que de tous les facteurs entrant dans la création d’un grand modèle de langage (ou, peut-être, de tout système basé sur un transformateur), le plus important est la qualité de l’ensemble de données. C’est pourquoi un modèle formé sur Twitter et Reddit ne sera jamais aussi éloquent qu’un modèle formé sur chaque œuvre publiée au cours du siècle dernier. (Et c’est probablement pourquoi OpenAI aurait utilisé des sources douteuses en matière de légalité, comme des livres protégés par le droit d’auteur, dans ses données de formation, une pratique qu’elle prétend avoir abandonnée.)
Ainsi, les ensembles de données de formation créés par OpenAI sont d’une valeur inestimable pour les concurrents, qu’il s’agisse d’autres entreprises, d’États adversaires ou de régulateurs ici aux États-Unis. La FTC ou les tribunaux n’aimeraient-ils pas savoir exactement quelles données ont été utilisées et si OpenAI a été honnête à ce sujet ?
Mais peut-être encore plus précieux est le trésor de données utilisateurs d’OpenAI : probablement des milliards de conversations avec ChatGPT sur des centaines de milliers de sujets. Tout comme les données de recherche étaient autrefois la clé pour comprendre la psyché collective du Web, ChatGPT prend le pouls d’une population qui n’est peut-être pas aussi large que l’univers des utilisateurs de Google, mais qui offre beaucoup plus de profondeur. (Au cas où vous ne le sauriez pas, à moins que vous ne vous désinscriviez, vos conversations sont utilisées pour les données d’entraînement.)
Dans le cas de Google, une hausse des recherches pour « climatiseurs » indique que le marché s’échauffe un peu. Mais ces utilisateurs n’ont pas de véritable conversation sur ce qu’ils veulent, le montant qu’ils sont prêts à dépenser, à quoi ressemble leur maison, les fabricants qu’ils veulent éviter, etc. Vous savez que cela est précieux car Google essaie lui-même de convertir ses utilisateurs à fournir ces mêmes informations en remplaçant les recherches par des interactions IA !
Pensez au nombre de conversations que les gens ont eues avec ChatGPT et à l’utilité de ces informations, non seulement pour les développeurs d’IA, mais aussi pour les équipes marketing, les consultants, les analystes… c’est une mine d’or.
La dernière catégorie de données est peut-être celle qui a la plus grande valeur sur le marché libre : la manière dont les clients utilisent réellement l’IA et les données qu’ils ont eux-mêmes fournies aux modèles.
Des centaines de grandes entreprises et d’innombrables petites entreprises utilisent des outils comme OpenAI et les API d’Anthropic pour une grande variété de tâches. Et pour qu’un modèle de langage leur soit utile, il doit généralement être affiné ou avoir accès à leurs propres bases de données internes.
Il peut s’agir de choses aussi prosaïques que de vieux budgets ou des dossiers du personnel (pour les rendre plus facilement consultables, par exemple) ou aussi précieuses que le code d’un logiciel inédit. Ce qu’ils font des capacités de l’IA (et si elles sont réellement utiles) est leur affaire, mais le fait est que le fournisseur d’IA dispose d’un accès privilégié, comme n’importe quel autre produit SaaS.
Il s’agit de secrets industriels, et les entreprises d’IA se retrouvent soudainement au cœur de bon nombre d’entre eux. La nouveauté de ce secteur d’activité comporte un risque particulier dans la mesure où les processus d’IA ne sont tout simplement pas encore standardisés ou totalement compris.
Comme tout fournisseur SaaS, les entreprises d’IA sont parfaitement capables de fournir des niveaux de sécurité, de confidentialité, d’options sur site conformes aux normes du secteur et, d’une manière générale, de fournir leurs services de manière responsable. Je n’ai aucun doute sur le fait que les bases de données privées et les appels API des clients Fortune 500 d’OpenAI sont verrouillés de manière très stricte ! Ils doivent certainement être tout aussi conscients, voire plus, des risques inhérents au traitement de données confidentielles dans le contexte de l’IA. (Le fait qu’OpenAI n’ait pas signalé cette attaque est leur choix, mais cela n’inspire pas confiance à une entreprise qui en a désespérément besoin.)
Mais les bonnes pratiques de sécurité ne changent rien à la valeur de ce qu’elles sont censées protéger, ni au fait que des acteurs malveillants et des adversaires divers se faufilent à la porte pour y pénétrer. La sécurité ne consiste pas seulement à choisir les bons paramètres ou à maintenir votre logiciel à jour, même si les bases sont bien sûr également importantes. C’est un jeu du chat et de la souris sans fin qui, ironiquement, est désormais suralimenté par l’IA elle-même : des agents et des automates d’attaque sondent chaque recoin des surfaces d’attaque de ces entreprises.
Il n’y a aucune raison de paniquer : les entreprises ayant accès à de nombreuses données personnelles ou commerciales ont été confrontées à des risques similaires et les ont gérés pendant des années. Mais les entreprises d’IA représentent une cible plus récente, plus jeune et potentiellement plus juteuse que votre serveur d’entreprise mal configuré ou votre courtier en données irresponsable. Même un piratage comme celui décrit ci-dessus, sans exfiltration sérieuse à notre connaissance, devrait inquiéter quiconque fait affaire avec des entreprises d’IA. Elles
Il n’y a pas lieu de s’inquiéter que vos conversations secrètes ChatGPT aient été obtenues suite à une récente violation des systèmes d’OpenAI. Le piratage lui-même, bien que troublant, semble avoir été superficiel, mais il rappelle que les entreprises d’IA sont rapidement devenues l’une des cibles les plus juteuses pour les pirates informatiques.
Le New York Times a rapporté le piratage de manière plus détaillée après que l’ancien employé d’OpenAI, Leopold Aschenbrenner, y ait fait allusion récemment dans un podcast . Il l’a qualifié d’« incident de sécurité majeur », mais des sources anonymes de l’entreprise ont déclaré au Times que le pirate n’avait eu accès qu’à un forum de discussion d’employés. (J’ai contacté OpenAI pour confirmation et commentaire.)
Aucune faille de sécurité ne doit être considérée comme anodine, et écouter les discussions internes sur le développement d’OpenAI a certainement son utilité. Mais il ne s’agit pas d’un hacker qui aurait accès aux systèmes internes, aux modèles en cours de développement, aux feuilles de route secrètes, etc.
Mais cela devrait nous effrayer de toute façon, et pas nécessairement à cause de la menace de la Chine ou d’autres adversaires qui nous dépasseraient dans la course aux armements de l’intelligence artificielle. Le fait est que ces entreprises d’intelligence artificielle sont devenues les gardiennes d’une quantité énorme de données très précieuses.
Parlons de trois types de données créées par OpenAI et, dans une moindre mesure, par d’autres sociétés d’IA ou auxquelles elles ont accès : les données de formation de haute qualité, les interactions utilisateur en masse et les données clients.
On ne sait pas exactement quelles sont les données d’entraînement dont disposent ces entreprises, car elles sont extrêmement discrètes sur leurs réserves. Mais il serait erroné de penser qu’il s’agit simplement d’énormes piles de données Web récupérées. Certes, elles utilisent des scrapers Web ou des ensembles de données comme Pile, mais transformer ces données brutes en quelque chose qui puisse être utilisé pour entraîner un modèle comme GPT-4o est une tâche gargantuesque. Cela nécessite un nombre considérable d’heures de travail humain , et cela ne peut être automatisé que partiellement.
Les données de formation de l’IA ont un prix que seules les grandes entreprises technologiques peuvent se permettre
Certains ingénieurs en apprentissage automatique ont émis l’hypothèse que de tous les facteurs entrant dans la création d’un grand modèle de langage (ou, peut-être, de tout système basé sur un transformateur), le plus important est la qualité de l’ensemble de données. C’est pourquoi un modèle formé sur Twitter et Reddit ne sera jamais aussi éloquent qu’un modèle formé sur chaque œuvre publiée au cours du siècle dernier. (Et c’est probablement pourquoi OpenAI aurait utilisé des sources douteuses en matière de légalité, comme des livres protégés par le droit d’auteur, dans ses données de formation, une pratique qu’elle prétend avoir abandonnée.)
Ainsi, les ensembles de données de formation créés par OpenAI sont d’une valeur inestimable pour les concurrents, qu’il s’agisse d’autres entreprises, d’États adversaires ou de régulateurs ici aux États-Unis. La FTC ou les tribunaux n’aimeraient-ils pas savoir exactement quelles données ont été utilisées et si OpenAI a été honnête à ce sujet ?
Mais peut-être encore plus précieux est le trésor de données utilisateurs d’OpenAI : probablement des milliards de conversations avec ChatGPT sur des centaines de milliers de sujets. Tout comme les données de recherche étaient autrefois la clé pour comprendre la psyché collective du Web, ChatGPT prend le pouls d’une population qui n’est peut-être pas aussi large que l’univers des utilisateurs de Google, mais qui offre beaucoup plus de profondeur. (Au cas où vous ne le sauriez pas, à moins que vous ne vous désinscriviez, vos conversations sont utilisées pour les données d’entraînement.)
Dans le cas de Google, une hausse des recherches pour « climatiseurs » indique que le marché s’échauffe un peu. Mais ces utilisateurs n’ont pas de véritable conversation sur ce qu’ils veulent, le montant qu’ils sont prêts à dépenser, à quoi ressemble leur maison, les fabricants qu’ils veulent éviter, etc. Vous savez que cela est précieux car Google essaie lui-même de convertir ses utilisateurs à fournir ces mêmes informations en remplaçant les recherches par des interactions IA !
Pensez au nombre de conversations que les gens ont eues avec ChatGPT et à l’utilité de ces informations, non seulement pour les développeurs d’IA, mais aussi pour les équipes marketing, les consultants, les analystes… c’est une mine d’or.
La dernière catégorie de données est peut-être celle qui a la plus grande valeur sur le marché libre : la manière dont les clients utilisent réellement l’IA et les données qu’ils ont eux-mêmes fournies aux modèles.
Des centaines de grandes entreprises et d’innombrables petites entreprises utilisent des outils comme OpenAI et les API d’Anthropic pour une grande variété de tâches. Et pour qu’un modèle de langage leur soit utile, il doit généralement être affiné ou avoir accès à leurs propres bases de données internes.
Il peut s’agir de choses aussi prosaïques que de vieux budgets ou des dossiers du personnel (pour les rendre plus facilement consultables, par exemple) ou aussi précieuses que le code d’un logiciel inédit. Ce qu’ils font des capacités de l’IA (et si elles sont réellement utiles) est leur affaire, mais le fait est que le fournisseur d’IA dispose d’un accès privilégié, comme n’importe quel autre produit SaaS.
Il s’agit de secrets industriels, et les entreprises d’IA se retrouvent soudainement au cœur de bon nombre d’entre eux. La nouveauté de ce secteur d’activité comporte un risque particulier dans la mesure où les processus d’IA ne sont tout simplement pas encore standardisés ou totalement compris.
Comme tout fournisseur SaaS, les entreprises d’IA sont parfaitement capables de fournir des niveaux de sécurité, de confidentialité, d’options sur site conformes aux normes du secteur et, d’une manière générale, de fournir leurs services de manière responsable. Je n’ai aucun doute sur le fait que les bases de données privées et les appels API des clients Fortune 500 d’OpenAI sont verrouillés de manière très stricte ! Ils doivent certainement être tout aussi conscients, voire plus, des risques inhérents au traitement de données confidentielles dans le contexte de l’IA. (Le fait qu’OpenAI n’ait pas signalé cette attaque est leur choix, mais cela n’inspire pas confiance à une entreprise qui en a désespérément besoin.)
Mais les bonnes pratiques de sécurité ne changent rien à la valeur de ce qu’elles sont censées protéger, ni au fait que des acteurs malveillants et des adversaires divers se faufilent à la porte pour y pénétrer. La sécurité ne consiste pas seulement à choisir les bons paramètres ou à maintenir votre logiciel à jour, même si les bases sont bien sûr également importantes. C’est un jeu du chat et de la souris sans fin qui, ironiquement, est désormais suralimenté par l’IA elle-même : des agents et des automates d’attaque sondent chaque recoin des surfaces d’attaque de ces entreprises.
Il n’y a aucune raison de paniquer : les entreprises ayant accès à de nombreuses données personnelles ou commerciales ont été confrontées à des risques similaires et les ont gérés pendant des années. Mais les entreprises d’IA représentent une cible plus récente, plus jeune et potentiellement plus juteuse que votre serveur d’entreprise mal configuré ou votre courtier en données irresponsable. Même un piratage comme celui décrit ci-dessus, sans exfiltration sérieuse à notre connaissance, devrait inquiéter quiconque fait affaire avec des entreprises d’IA. Elles ont peint leurs cibles sur leur dos. Ne soyez pas surpris si quelqu’un, ou tout le monde, tente sa chance.
ont peint leurs cibles sur leur dos. Ne soyez pas surpris si quelqu’un, ou tout le monde, tente sa chance.