Fermer Le Menu
ZaglaZagla
  • Actualités
    • Interviews
    • Dossiers Spéciaux
  • Innovation
    • Startups & Entrepreneurs
  • Afrique Digitale
    • Agenda Tech
  • Zagla TV
  • À propos
  • Contact / Publier

Abonnez-vous pour recevoir nos actualités.

Inscrivez-vous à notre newsletter et restez au courant des dernières actualités et des offres exclusives.

What's Hot

 SOTRACO : les nouveaux bus séduisent, mais la technologie peut encore transformer la mobilité à Ouagadougou

17 octobre 2025

Verrouillage des profils Facebook : outil de protection ou frein à la transparence numérique ?

8 juillet 2025

Burkina Faso : « Le Faso Digital » marque une nouvelle ère pour l’écosystème tech national

20 octobre 2025

5 fonctionnalités à connaître pour bien utiliser Le Chat de MistralAI

26 février 2025
Facebook X (Twitter) Instagram
Tendance
  • Les 100 marques les plus puissantes du monde : le classement 2025
  • Top 20 des modèles d’IA les plus performants en octobre 2025 : le classement complet
  • ChatGPT, Gemini, Copilot : ces IA qui inspirent (un peu plus) confiance
  • Burkina Faso : « Le Faso Digital » marque une nouvelle ère pour l’écosystème tech national
  •  SOTRACO : les nouveaux bus séduisent, mais la technologie peut encore transformer la mobilité à Ouagadougou
  •  Burkina Faso : la BCLCC et le PNUD unissent leurs forces pour contrer les discours de haine en ligne
  • Le Togo accueille le GRIT 2025 : la Grande Rencontre de l’Innovation Technologique pour propulser l’Afrique de l’Ouest vers l’avenir
  • Créa Impact 2025 : un carrefour d’échanges pour les créateurs de contenus au Burkina Faso
Facebook X (Twitter) Instagram LinkedIn
ZaglaZagla
Demo
  • Actualités
    1. Interviews
    2. Dossiers Spéciaux
    3. Voir Tous

     SOTRACO : les nouveaux bus séduisent, mais la technologie peut encore transformer la mobilité à Ouagadougou

    17 octobre 2025

    Disparitions d’enfants à Ouagadougou : un drame silencieux, la technologie comme alliée

    23 septembre 2025

    Quels sont les meilleurs routeurs 4G et 5G ? Comparatif 2025

    15 août 2025

     Cyberguérilla mondiale : Classement des 10 groupes de hackers les plus puissants au monde

    31 juillet 2025

    Les 100 marques les plus puissantes du monde : le classement 2025

    21 octobre 2025

     SOTRACO : les nouveaux bus séduisent, mais la technologie peut encore transformer la mobilité à Ouagadougou

    17 octobre 2025

     Burkina Faso : la BCLCC et le PNUD unissent leurs forces pour contrer les discours de haine en ligne

    15 octobre 2025

    « Nous avons fait fausse route » : 30 ans après, l’inventeur du Web confie un regret inattendu

    29 septembre 2025
  • Innovation
    1. Startups & Entrepreneurs
    2. Voir Tous

    Créa Impact 2025 : un carrefour d’échanges pour les créateurs de contenus au Burkina Faso

    7 octobre 2025

    Burkina Faso : Un étudiant conçoit un logiciel innovant pour optimiser la climatisation et réduire la consommation énergétique

    24 juillet 2025

    Fasoogle : L’initiative de Romain Somé pour l’accès libre à la connaissance

    11 juillet 2025

    Technologie sans solidarité : le vrai bug du numérique au Burkina Faso

    18 juin 2025

    Créa Impact 2025 : un carrefour d’échanges pour les créateurs de contenus au Burkina Faso

    7 octobre 2025

    Google Pixel 10 : une nouvelle couleur fera son apparition, elle est osée

    8 août 2025

    Burkina Faso : Un étudiant conçoit un logiciel innovant pour optimiser la climatisation et réduire la consommation énergétique

    24 juillet 2025

    Fasoogle : L’initiative de Romain Somé pour l’accès libre à la connaissance

    11 juillet 2025
  • Afrique Digitale
    1. Agenda Tech
    2. Voir Tous

    𝟐𝟎ᵉ 𝐞́𝐝𝐢𝐭𝐢𝐨𝐧 𝐝𝐞 𝐥𝐚 𝐒𝐞𝐦𝐚𝐢𝐧𝐞 𝐝𝐮 𝐧𝐮𝐦𝐞́𝐫𝐢𝐪𝐮𝐞 : 𝐥𝐞 𝐆𝐡𝐚𝐧𝐚 𝐩𝐚𝐲𝐬 𝐢𝐧𝐯𝐢𝐭𝐞́ 𝐝’𝐡𝐨𝐧𝐧𝐞𝐮𝐫

    23 septembre 2025

    Forum « 10.000 Codeurs » : Une immersion dans les métiers du numérique

    30 juin 2025

    DSI Digital Day : La data , la cybersécurité et l’IA au cœur des échanges

    26 juin 2025

    WWDC 2025: iOS 26, watchOS 26, Liquid Glass… toutes les nouveautés d’Apple

    10 juin 2025

    Burkina Faso : « Le Faso Digital » marque une nouvelle ère pour l’écosystème tech national

    20 octobre 2025

    Le Togo accueille le GRIT 2025 : la Grande Rencontre de l’Innovation Technologique pour propulser l’Afrique de l’Ouest vers l’avenir

    13 octobre 2025

     Sénégal : le fisc paralysé par un ransomware de 6,5 milliards FCFA

    3 octobre 2025

    𝟐𝟎ᵉ 𝐞́𝐝𝐢𝐭𝐢𝐨𝐧 𝐝𝐞 𝐥𝐚 𝐒𝐞𝐦𝐚𝐢𝐧𝐞 𝐝𝐮 𝐧𝐮𝐦𝐞́𝐫𝐢𝐪𝐮𝐞 : 𝐥𝐞 𝐆𝐡𝐚𝐧𝐚 𝐩𝐚𝐲𝐬 𝐢𝐧𝐯𝐢𝐭𝐞́ 𝐝’𝐡𝐨𝐧𝐧𝐞𝐮𝐫

    23 septembre 2025
  • Zagla TV
  • À propos
  • Contact / Publier
ZAGLAPRO
ZaglaZagla
La maison»Technologie»Actualités Tech»Wikipédia ouvre un accès structuré à ses données pour entraîner des modèles d’IA
Actualités Tech

Wikipédia ouvre un accès structuré à ses données pour entraîner des modèles d’IA

ArmandKPar ArmandK18 avril 2025Aucun commentaire3 Minutes de Lecture
Partager Facebook Twitter Pinterest LinkedIn Tumblr Reddit Télégramme E-mail
Partager
Facebook Twitter LinkedIn Pinterest E-mail

Face au scraping intensif, Wikimedia met en ligne un dataset optimisé de Wikipédia sur Kaggle, destiné aux chercheurs et développeurs en intelligence artificielle.

Wikimedia Enterprise a récemment publié un vaste jeu de données structuré de Wikipédia sur Kaggle, la plateforme de data science appartenant à Google. L’objectif est de fournir aux chercheurs, développeurs et professionnels de l’IA un accès propre, actualisé et facilement exploitable aux contenus encyclopédiques. Une initiative qui répond aussi à la pression croissante exercée par le scraping intensif des contenus de « l’encyclopédie libre ».

Wikimedia veut faciliter l’accès aux données de Wikipédia pour l’IA

Kaggle est une plateforme en ligne bien connue des data scientists, qui propose des compétitions de machine learning, des jeux de données ouverts et un environnement collaboratif pour le développement de modèles d’IA. En y mettant en ligne un important jeu de données, Wikimedia Enterprise souhaite encourager les usages responsables et accessibles des contenus de Wikipédia, mais également réduire la charge importante qui pèse sur ses propres infrastructures.

Cette annonce intervient en effet dans un contexte où l’usage massif de Wikipédia par les robots de scraping génère un trafic considérable, parfois problématique. Et cette collecte de données est souvent effectuée par des acteurs dont le but est d’entraîner des modèles de langage à grande échelle, sans forcément respecter les bonnes pratiques techniques ou éthiques. « Nous avons découvert qu’au moins 65 % de ce trafic gourmand en ressources sur notre site provenait de bots », expliquait d’ailleurs Wikimedia début avril 2025, qui a également constaté, depuis janvier 2024, une augmentation de 50 % de la bande passante utilisée pour le téléchargement de contenu depuis ses serveurs.

Un jeu de données conçu pour l’entraînement et l’analyse des modèles d’IA

Le dataset mis à disposition par Wikimedia contient une version compressée et structurée des contenus de Wikipédia, actualisée mensuellement. Il se concentre sur les versions anglaise et française de l’encyclopédie, avec des métadonnées enrichies (identifiants de pages, horodatage des versions, structures de sections, liens internes, etc.), au format JSON optimisé pour l’analyse automatisée.

Le jeu de données contient, en outre, « des résumés, des descriptions, des données de type infobox, des liens d’images et des sections d’articles clairement segmentées », à l’exclusion des éléments non textuels. De plus, le contenu est sous licence libre (Creative Commons et GFDL). Enfin, ce projet ne se limite pas à une simple diffusion : il s’accompagne d’une documentation détaillée, d’un dépôt GitHub associé et d’un forum communautaire sur Kaggle pour échanger autour des usages possibles.

Source: BDM

Total
0
Shares
Share 0
Tweet 0
Pin it 0
Share 0
Part. Facebook Twitter Pinterest LinkedIn Tumblr E-mail
Article PrécédentTiktok va tester les notes communautaires pour lutter contre la désinformation
Prochain Article L’iPhone 18 devrait vous coûter très cher !
jkienou
ArmandK

Connexes Postes

Actualités Tech

“Pas un métier de femmes” : stéréotypes, invisibilisation et barrières culturelles freinent les vocations féminines dans la tech

6 octobre 2025
Actualités Tech

La vidéo courte en 2025 : les tendances sur TikTok, Instagram, YouTube Shorts…

12 septembre 2025
Actualités Tech

𝐃𝐢𝐠𝐢𝐭𝐚𝐥𝐢𝐬𝐚𝐭𝐢𝐨𝐧 𝐝𝐞 𝐥’𝐚𝐝𝐦𝐢𝐧𝐢𝐬𝐭𝐫𝐚𝐭𝐢𝐨𝐧 𝐩𝐮𝐛𝐥𝐢𝐪𝐮𝐞 : 𝐥𝐞 𝐦𝐢𝐧𝐢𝐬𝐭𝐞̀𝐫𝐞 𝐝𝐞 𝐥’𝐄𝐧𝐬𝐞𝐢𝐠𝐧𝐞𝐦𝐞𝐧𝐭 𝐬𝐞𝐜𝐨𝐧𝐝𝐚𝐢𝐫𝐞 𝐛𝐞́𝐧𝐞́𝐟𝐢𝐜𝐢𝐞 𝐝’𝐮𝐧 𝐚𝐩𝐩𝐮𝐢 𝐬𝐭𝐫𝐚𝐭𝐞́𝐠𝐢𝐪𝐮𝐞 𝐝𝐮 𝐩𝐫𝐨𝐣𝐞𝐭 𝐏𝐀𝐂𝐓𝐃𝐈𝐆𝐈𝐓𝐀𝐋

11 septembre 2025
Demo
On est sur les réseaux
  • Facebook
  • Twitter
  • Instagram
  • LinkedIn
Don't Miss

Les 100 marques les plus puissantes du monde : le classement 2025

21 octobre 2025

Top 20 des modèles d’IA les plus performants en octobre 2025 : le classement complet

21 octobre 2025

ChatGPT, Gemini, Copilot : ces IA qui inspirent (un peu plus) confiance

21 octobre 2025

Burkina Faso : « Le Faso Digital » marque une nouvelle ère pour l’écosystème tech national

20 octobre 2025

Abonnez-vous pour recevoir nos actualités.

Inscrivez-vous à notre newsletter et restez au courant des dernières actualités et des offres exclusives.

Demo
Facebook X (Twitter) Instagram LinkedIn
© 2025 Zagla. All Rights Reserved.

Type ci-dessus et appuyez sur Enter pour la recherche. Appuyez sur Esc pour annuler.