Le plus grand ensemble de données d'images d'entraînement à l'IA est mis hors ligne après la découverte de matériel illicite inquiétant
Une étude publiée par le Stanford Internet Observatory a fait une découverte troublante par le Stanford Internet Observatory a fait une découverte troublante : LAION-5B, le plus grand ensemble de données d'images utilisé pour l'entraînement à la génération d'images par l'IA, est une source d'erreur Modèles de génération d'images par l'IA d'images, contient 3 226 images suspectées d'être des images d'abus sexuel d'enfants (CSAM). LAION a depuis retiré son ensemble de données de l'accès public, jusqu'à ce qu'elle puisse s'assurer qu'elles sont exemptes de tout contenu dangereux.
LAION-5B, un ensemble de données en libre accès composé de plus de 5,8 milliards de paires d'URL d'images en ligne et de légendes correspondantes, est utilisé pour former des modèles d'IA, notamment le très populaire modèle de la Diffusion stable. Il a été créé en utilisant Common Crawl pour rechercher un large éventail d'images sur l'internet.
David Thiel et l'équipe de chercheurs de Stanford à l'origine de l'étude ont commencé par filtrer l'ensemble de données à l'aide des classificateurs NSFW de LAION, puis se sont appuyés sur PhotoDNAun outil couramment utilisé pour la modération de contenu dans ce contexte. La consultation de CSAM étant illégale, même à des fins de recherche, l'équipe a utilisé le hachage perceptuel, qui crée une signature numérique unique pour chaque image et utilise cette signature pour la faire correspondre à une image test afin de vérifier si elle est identique ou similaire. L'équipe a ensuite envoyé les "correspondances certaines" au Centre canadien de protection de l'enfance pour qu'il les valide.
À la suite de la publication de l'étude, un porte-parole de Stable Diffusion a déclaré à 404 Media que l'entreprise avait mis en place de nombreux filtres internes qui permettraient non seulement d'éliminer CSAM et d'autres contenus illégaux et offensants des données utilisées pour la formation, mais aussi de s'assurer que les messages d'entrée et les images générées par le modèle d'intelligence artificielle sont nettoyés.
En vertu de la loi fédérale américaine, il est illégal de posséder et de transmettre non seulement du CSAM, mais aussi "des films et des bandes vidéo non développés, ainsi que des données stockées électroniquement qui peuvent être converties en une image visuelle". Toutefois, étant donné que les ensembles de données tels que le LAION-5B ne contiennent que des URL et non les images elles-mêmes, leur légalité exacte n'est pas claire. Le problème général est encore exacerbé par le fait que le CSAM généré par l'IA est difficile à distinguer du CSAM réel, et qu'il est en augmentation. Même si 3200 images sur 5 milliards peuvent sembler insignifiantes, l'influence potentielle de ces données d'entraînement "contaminées" sur les résultats des modèles génératifs d'IA ne peut être ignorée.
L'étude publiée par David Thiel et son équipe met en lumière l'une des plus inquiétantes plus inquiétantes de la prolifération soudaine de l'IA. Trouver des solutions à ces préoccupations sera une tâche lente et difficile au cours des prochaines années, impliquant à parts égales le législateur, les forces de l'ordre, l'industrie technologique, les universitaires et le grand public.
Source(s)
Top 10
» Le Top 10 des PC portables multimédia
» Le Top 10 des PC portables de jeu
» Le Top 10 des PC portables de jeu légers
» Le Top 10 des ordinateurs portables bureautiques
» Le Top 10 des PC portables bureautiques premium/professionnels
» Le Top 10 des Stations de travail mobiles
» Le Top 10 des Ultraportables
» Le Top 10 des Ultrabooks
» Le Top 10 des Convertibles
» Le Top 10 des Tablettes
» Le Top 10 des Tablettes Windows
» Le Top 10 des Smartphones
» Le Top 10 des PC Portables á moins de 300 euros
» Le Top 10 des PC Portables á moins de 500 euros
» Le Top 25 des meilleurs écrans d'ordinateurs