Fermer Le Menu
ZaglaZagla
  • Actualités
    • Interviews
    • Dossiers Spéciaux
  • Innovation
    • Startups & Entrepreneurs
  • Afrique Digitale
    • Agenda Tech
  • Zagla TV
  • À propos
  • Contact / Publier

Abonnez-vous pour recevoir nos actualités.

Inscrivez-vous à notre newsletter et restez au courant des dernières actualités et des offres exclusives.

What's Hot

Une plateforme E-Bulletin pour les agents de l’Etat

25 avril 2023

Ce chatbot devenu viral qui affole la tech est aussi puissant que dangereux !

30 janvier 2026

Verrouillage des profils Facebook : outil de protection ou frein à la transparence numérique ?

8 juillet 2025

Voici les logiciels à installer impérativement si vous avez un nouveau PC

27 décembre 2024
Facebook X (Twitter) Instagram
Tendance
  • L’Innovation technologique : Lorsque le rail entre dans une nouvelle ère
  • Ce chatbot devenu viral qui affole la tech est aussi puissant que dangereux !
  • Découvrez les premières images de la nouvelle interface de Google Wallet
  • Windows 11: le bug de démarrage a enfin une explication mais toujours pas de solution
  • La CAN 2025 au Maroc devient l’édition la plus visionnée avec 6 milliards de vues
  • Gemini peut désormais vous aider à caler vos réunions pro, voici comment
  • Surprise ! ChatGPT perd du terrain face à la concurrence (et Gemini en particulier)
  • Tournée africaine d’IShowSpeed : quand le streaming change le regard sur l’Afrique
Facebook X (Twitter) Instagram LinkedIn
ZaglaZagla
Demo
  • Actualités
    1. Interviews
    2. Dossiers Spéciaux
    3. Voir Tous

    Personnalité Tech de l’Année 2025: Aminata Zerbo/Sabane, ou l’art de bâtir l’État numérique dans l’excellence

    5 janvier 2026

    Les 10 plus gros ratés technologiques de 2025

    31 décembre 2025

    Black Friday : quand tout le pays passe en mode promotions XXL

    27 novembre 2025

    Les “ingénieurs de la rue” : au cœur du génie technologique burkinabè

    10 novembre 2025

    Découvrez les premières images de la nouvelle interface de Google Wallet

    30 janvier 2026

    Tournée africaine d’IShowSpeed : quand le streaming change le regard sur l’Afrique

    27 janvier 2026

    Gmail a déraillé : Google révèle pourquoi votre boîte mail a été inondée de spams

    26 janvier 2026

    49 millions de mots de passe Gmail, Apple, Facebook, Netflix, TikTok et Binance ont été piratés et exposés sur Internet

    26 janvier 2026
  • Innovation
    1. Startups & Entrepreneurs
    2. Voir Tous

    Créa Impact 2025 : un carrefour d’échanges pour les créateurs de contenus au Burkina Faso

    7 octobre 2025

    Burkina Faso : Un étudiant conçoit un logiciel innovant pour optimiser la climatisation et réduire la consommation énergétique

    24 juillet 2025

    Fasoogle : L’initiative de Romain Somé pour l’accès libre à la connaissance

    11 juillet 2025

    Technologie sans solidarité : le vrai bug du numérique au Burkina Faso

    18 juin 2025

    CAN 2025 au Maroc : quand football rime avec innovation technologique

    22 décembre 2025

    Sept nouveaux émojis arrivent en 2026, déjà accessibles sur certains smartphones

    22 décembre 2025

    La Chine met en service son propre « nouvel Internet »

    20 décembre 2025

    Un nouveau scanner de documents est en préparation sur Android, voici ce qui va changer

    2 décembre 2025
  • Afrique Digitale
    1. Agenda Tech
    2. Voir Tous

    𝟐𝟎ᵉ 𝐞́𝐝𝐢𝐭𝐢𝐨𝐧 𝐝𝐞 𝐥𝐚 𝐒𝐞𝐦𝐚𝐢𝐧𝐞 𝐝𝐮 𝐧𝐮𝐦𝐞́𝐫𝐢𝐪𝐮𝐞 : 𝐥𝐞 𝐆𝐡𝐚𝐧𝐚 𝐩𝐚𝐲𝐬 𝐢𝐧𝐯𝐢𝐭𝐞́ 𝐝’𝐡𝐨𝐧𝐧𝐞𝐮𝐫

    23 septembre 2025

    Forum « 10.000 Codeurs » : Une immersion dans les métiers du numérique

    30 juin 2025

    DSI Digital Day : La data , la cybersécurité et l’IA au cœur des échanges

    26 juin 2025

    WWDC 2025: iOS 26, watchOS 26, Liquid Glass… toutes les nouveautés d’Apple

    10 juin 2025

    Semaine du Numérique 2025 : découverte des innovations présentées aux stands

    19 novembre 2025

    Burkina Faso : « Le Faso Digital » marque une nouvelle ère pour l’écosystème tech national

    20 octobre 2025

    Le Togo accueille le GRIT 2025 : la Grande Rencontre de l’Innovation Technologique pour propulser l’Afrique de l’Ouest vers l’avenir

    13 octobre 2025

     Sénégal : le fisc paralysé par un ransomware de 6,5 milliards FCFA

    3 octobre 2025
  • Zagla TV
  • À propos
  • Contact / Publier
ZAGLAPRO
ZaglaZagla
La maison»Technologie»Actualités Tech»Wikipédia ouvre un accès structuré à ses données pour entraîner des modèles d’IA
Actualités Tech

Wikipédia ouvre un accès structuré à ses données pour entraîner des modèles d’IA

ArmandKPar ArmandK18 avril 2025Aucun commentaire3 Minutes de Lecture
Partager Facebook Twitter Pinterest LinkedIn Tumblr Reddit Télégramme E-mail
Partager
Facebook Twitter LinkedIn Pinterest E-mail

Face au scraping intensif, Wikimedia met en ligne un dataset optimisé de Wikipédia sur Kaggle, destiné aux chercheurs et développeurs en intelligence artificielle.

Wikimedia Enterprise a récemment publié un vaste jeu de données structuré de Wikipédia sur Kaggle, la plateforme de data science appartenant à Google. L’objectif est de fournir aux chercheurs, développeurs et professionnels de l’IA un accès propre, actualisé et facilement exploitable aux contenus encyclopédiques. Une initiative qui répond aussi à la pression croissante exercée par le scraping intensif des contenus de « l’encyclopédie libre ».

Wikimedia veut faciliter l’accès aux données de Wikipédia pour l’IA

Kaggle est une plateforme en ligne bien connue des data scientists, qui propose des compétitions de machine learning, des jeux de données ouverts et un environnement collaboratif pour le développement de modèles d’IA. En y mettant en ligne un important jeu de données, Wikimedia Enterprise souhaite encourager les usages responsables et accessibles des contenus de Wikipédia, mais également réduire la charge importante qui pèse sur ses propres infrastructures.

Cette annonce intervient en effet dans un contexte où l’usage massif de Wikipédia par les robots de scraping génère un trafic considérable, parfois problématique. Et cette collecte de données est souvent effectuée par des acteurs dont le but est d’entraîner des modèles de langage à grande échelle, sans forcément respecter les bonnes pratiques techniques ou éthiques. « Nous avons découvert qu’au moins 65 % de ce trafic gourmand en ressources sur notre site provenait de bots », expliquait d’ailleurs Wikimedia début avril 2025, qui a également constaté, depuis janvier 2024, une augmentation de 50 % de la bande passante utilisée pour le téléchargement de contenu depuis ses serveurs.

Un jeu de données conçu pour l’entraînement et l’analyse des modèles d’IA

Le dataset mis à disposition par Wikimedia contient une version compressée et structurée des contenus de Wikipédia, actualisée mensuellement. Il se concentre sur les versions anglaise et française de l’encyclopédie, avec des métadonnées enrichies (identifiants de pages, horodatage des versions, structures de sections, liens internes, etc.), au format JSON optimisé pour l’analyse automatisée.

Le jeu de données contient, en outre, « des résumés, des descriptions, des données de type infobox, des liens d’images et des sections d’articles clairement segmentées », à l’exclusion des éléments non textuels. De plus, le contenu est sous licence libre (Creative Commons et GFDL). Enfin, ce projet ne se limite pas à une simple diffusion : il s’accompagne d’une documentation détaillée, d’un dépôt GitHub associé et d’un forum communautaire sur Kaggle pour échanger autour des usages possibles.

Source: BDM

Total
0
Shares
Share 0
Tweet 0
Pin it 0
Share 0
Part. Facebook Twitter Pinterest LinkedIn Tumblr E-mail
Article PrécédentTiktok va tester les notes communautaires pour lutter contre la désinformation
Prochain Article L’iPhone 18 devrait vous coûter très cher !
jkienou
ArmandK

Connexes Postes

Actualités Tech

Windows 11: le bug de démarrage a enfin une explication mais toujours pas de solution

29 janvier 2026
Actualités Tech

Facebook : une nouvelle technique de piratage difficile à détecter cible les utilisateurs

13 janvier 2026
Actualités Tech

Pourquoi l’IA qui remplacerait l’homme dans l’écriture du code n’est pas pour demain

19 décembre 2025
Demo
On est sur les réseaux
  • Facebook
  • Twitter
  • Instagram
  • LinkedIn
Don't Miss

L’Innovation technologique : Lorsque le rail entre dans une nouvelle ère

3 février 2026

Ce chatbot devenu viral qui affole la tech est aussi puissant que dangereux !

30 janvier 2026

Découvrez les premières images de la nouvelle interface de Google Wallet

30 janvier 2026

Windows 11: le bug de démarrage a enfin une explication mais toujours pas de solution

29 janvier 2026

Abonnez-vous pour recevoir nos actualités.

Inscrivez-vous à notre newsletter et restez au courant des dernières actualités et des offres exclusives.

Demo
Facebook X (Twitter) Instagram LinkedIn
© 2026 Zagla. All Rights Reserved.

Type ci-dessus et appuyez sur Enter pour la recherche. Appuyez sur Esc pour annuler.