Fermer Le Menu
ZaglaZagla
  • Actualités
    • Interviews
    • Dossiers Spéciaux
  • Innovation
    • Startups & Entrepreneurs
  • Afrique Digitale
    • Agenda Tech
  • Zagla TV
  • À propos
  • Contact / Publier

Abonnez-vous pour recevoir nos actualités.

Inscrivez-vous à notre newsletter et restez au courant des dernières actualités et des offres exclusives.

What's Hot

Après plus de 20 jours de guerre au Moyen-Orient, comment l’Iran et les Gardiens de la Révolution mobilisent leurs unités numériques contre les infrastructures aux États-Unis, en Israël et dans le Golfe

20 mars 2026

Une plateforme E-Bulletin pour les agents de l’Etat

25 avril 2023

Verrouillage des profils Facebook : outil de protection ou frein à la transparence numérique ?

8 juillet 2025

Meta (Facebook) va fermer Messenger.com

23 février 2026
Facebook X (Twitter) Instagram
Tendance
  • Après plus de 20 jours de guerre au Moyen-Orient, comment l’Iran et les Gardiens de la Révolution mobilisent leurs unités numériques contre les infrastructures aux États-Unis, en Israël et dans le Golfe
  • Whatsapp est désormais officiellement accessible au moins de 13 ans, mais avec quelques restrictions et sous le contrôle des parents
  • Sur X, la lutte contre la désinformation devient payante…
  • Conscients que les « engagements éthiques des développeurs d’IA contribuent à l’innovation », des employés de Google et OpenAI apportent leur soutien à la plainte d’Anthropic contre l’administration Trump
  • Femmes et cyberviolences : un état des lieux documenté, genré, et difficile à ignorer
  • Pourquoi tout le monde désinstalle ChatGPT et télécharge Claude
  • Ouagadougou a accueilli un séminaire international sur l’intelligence artificielle et la transformation digitale
  • Le conflit au Moyen Orient va dégénérer en cyberattaques alerte le Canada
Facebook X (Twitter) Instagram LinkedIn
ZaglaZagla
Demo
  • Actualités
    1. Interviews
    2. Dossiers Spéciaux
    3. Voir Tous

    Femmes et cyberviolences : un état des lieux documenté, genré, et difficile à ignorer

    8 mars 2026

    Personnalité Tech de l’Année 2025: Aminata Zerbo/Sabane, ou l’art de bâtir l’État numérique dans l’excellence

    5 janvier 2026

    Les 10 plus gros ratés technologiques de 2025

    31 décembre 2025

    Black Friday : quand tout le pays passe en mode promotions XXL

    27 novembre 2025

    Après plus de 20 jours de guerre au Moyen-Orient, comment l’Iran et les Gardiens de la Révolution mobilisent leurs unités numériques contre les infrastructures aux États-Unis, en Israël et dans le Golfe

    20 mars 2026

    Whatsapp est désormais officiellement accessible au moins de 13 ans, mais avec quelques restrictions et sous le contrôle des parents

    12 mars 2026

    Sur X, la lutte contre la désinformation devient payante…

    12 mars 2026

    Conscients que les « engagements éthiques des développeurs d’IA contribuent à l’innovation », des employés de Google et OpenAI apportent leur soutien à la plainte d’Anthropic contre l’administration Trump

    10 mars 2026
  • Innovation
    1. Startups & Entrepreneurs
    2. Voir Tous

    Ouagadougou a accueilli un séminaire international sur l’intelligence artificielle et la transformation digitale

    3 mars 2026

    Créa Impact 2025 : un carrefour d’échanges pour les créateurs de contenus au Burkina Faso

    7 octobre 2025

    Burkina Faso : Un étudiant conçoit un logiciel innovant pour optimiser la climatisation et réduire la consommation énergétique

    24 juillet 2025

    Fasoogle : L’initiative de Romain Somé pour l’accès libre à la connaissance

    11 juillet 2025

    Ouagadougou a accueilli un séminaire international sur l’intelligence artificielle et la transformation digitale

    3 mars 2026

    Meta (Facebook) va fermer Messenger.com

    23 février 2026

    UNET : Une Plateforme d’Innovation qui Séduit les Jeunes Burkinabè, retour sur son Lancement à Ouagadougou

    18 février 2026

    CAN 2025 au Maroc : quand football rime avec innovation technologique

    22 décembre 2025
  • Afrique Digitale
    1. Agenda Tech
    2. Voir Tous

    𝟐𝟎ᵉ 𝐞́𝐝𝐢𝐭𝐢𝐨𝐧 𝐝𝐞 𝐥𝐚 𝐒𝐞𝐦𝐚𝐢𝐧𝐞 𝐝𝐮 𝐧𝐮𝐦𝐞́𝐫𝐢𝐪𝐮𝐞 : 𝐥𝐞 𝐆𝐡𝐚𝐧𝐚 𝐩𝐚𝐲𝐬 𝐢𝐧𝐯𝐢𝐭𝐞́ 𝐝’𝐡𝐨𝐧𝐧𝐞𝐮𝐫

    23 septembre 2025

    Forum « 10.000 Codeurs » : Une immersion dans les métiers du numérique

    30 juin 2025

    DSI Digital Day : La data , la cybersécurité et l’IA au cœur des échanges

    26 juin 2025

    WWDC 2025: iOS 26, watchOS 26, Liquid Glass… toutes les nouveautés d’Apple

    10 juin 2025

    Vérification d’identité en ligne : entre sécurité numérique et risques invisibles

    20 février 2026

    UNET : Une Plateforme d’Innovation qui Séduit les Jeunes Burkinabè, retour sur son Lancement à Ouagadougou

    18 février 2026

    Semaine du Numérique 2025 : découverte des innovations présentées aux stands

    19 novembre 2025

    Burkina Faso : « Le Faso Digital » marque une nouvelle ère pour l’écosystème tech national

    20 octobre 2025
  • Zagla TV
  • À propos
  • Contact / Publier
ZAGLAPRO
ZaglaZagla
La maison»Technologie»Actualités Tech»Wikipédia ouvre un accès structuré à ses données pour entraîner des modèles d’IA
Actualités Tech

Wikipédia ouvre un accès structuré à ses données pour entraîner des modèles d’IA

ArmandKPar ArmandK18 avril 2025Aucun commentaire3 Minutes de Lecture
Partager Facebook Twitter Pinterest LinkedIn Tumblr Reddit Télégramme E-mail
Partager
Facebook Twitter LinkedIn Pinterest E-mail

Face au scraping intensif, Wikimedia met en ligne un dataset optimisé de Wikipédia sur Kaggle, destiné aux chercheurs et développeurs en intelligence artificielle.

Wikimedia Enterprise a récemment publié un vaste jeu de données structuré de Wikipédia sur Kaggle, la plateforme de data science appartenant à Google. L’objectif est de fournir aux chercheurs, développeurs et professionnels de l’IA un accès propre, actualisé et facilement exploitable aux contenus encyclopédiques. Une initiative qui répond aussi à la pression croissante exercée par le scraping intensif des contenus de « l’encyclopédie libre ».

Wikimedia veut faciliter l’accès aux données de Wikipédia pour l’IA

Kaggle est une plateforme en ligne bien connue des data scientists, qui propose des compétitions de machine learning, des jeux de données ouverts et un environnement collaboratif pour le développement de modèles d’IA. En y mettant en ligne un important jeu de données, Wikimedia Enterprise souhaite encourager les usages responsables et accessibles des contenus de Wikipédia, mais également réduire la charge importante qui pèse sur ses propres infrastructures.

Cette annonce intervient en effet dans un contexte où l’usage massif de Wikipédia par les robots de scraping génère un trafic considérable, parfois problématique. Et cette collecte de données est souvent effectuée par des acteurs dont le but est d’entraîner des modèles de langage à grande échelle, sans forcément respecter les bonnes pratiques techniques ou éthiques. « Nous avons découvert qu’au moins 65 % de ce trafic gourmand en ressources sur notre site provenait de bots », expliquait d’ailleurs Wikimedia début avril 2025, qui a également constaté, depuis janvier 2024, une augmentation de 50 % de la bande passante utilisée pour le téléchargement de contenu depuis ses serveurs.

Un jeu de données conçu pour l’entraînement et l’analyse des modèles d’IA

Le dataset mis à disposition par Wikimedia contient une version compressée et structurée des contenus de Wikipédia, actualisée mensuellement. Il se concentre sur les versions anglaise et française de l’encyclopédie, avec des métadonnées enrichies (identifiants de pages, horodatage des versions, structures de sections, liens internes, etc.), au format JSON optimisé pour l’analyse automatisée.

Le jeu de données contient, en outre, « des résumés, des descriptions, des données de type infobox, des liens d’images et des sections d’articles clairement segmentées », à l’exclusion des éléments non textuels. De plus, le contenu est sous licence libre (Creative Commons et GFDL). Enfin, ce projet ne se limite pas à une simple diffusion : il s’accompagne d’une documentation détaillée, d’un dépôt GitHub associé et d’un forum communautaire sur Kaggle pour échanger autour des usages possibles.

Source: BDM

Total
0
Shares
Share 0
Tweet 0
Pin it 0
Share 0
Part. Facebook Twitter Pinterest LinkedIn Tumblr E-mail
Article PrécédentTiktok va tester les notes communautaires pour lutter contre la désinformation
Prochain Article L’iPhone 18 devrait vous coûter très cher !
jkienou
ArmandK

Connexes Postes

Actualités Tech

Ouagadougou a accueilli un séminaire international sur l’intelligence artificielle et la transformation digitale

3 mars 2026
Actualités Tech

Le conflit au Moyen Orient va dégénérer en cyberattaques alerte le Canada

3 mars 2026
Actualités Tech

Cette faille critique de Chrome est exploitée par des pirates, Google déploie une mise à jour d’urgence

16 février 2026
Demo
On est sur les réseaux
  • Facebook
  • Twitter
  • Instagram
  • LinkedIn
Don't Miss

Après plus de 20 jours de guerre au Moyen-Orient, comment l’Iran et les Gardiens de la Révolution mobilisent leurs unités numériques contre les infrastructures aux États-Unis, en Israël et dans le Golfe

20 mars 2026

Whatsapp est désormais officiellement accessible au moins de 13 ans, mais avec quelques restrictions et sous le contrôle des parents

12 mars 2026

Sur X, la lutte contre la désinformation devient payante…

12 mars 2026

Conscients que les « engagements éthiques des développeurs d’IA contribuent à l’innovation », des employés de Google et OpenAI apportent leur soutien à la plainte d’Anthropic contre l’administration Trump

10 mars 2026

Abonnez-vous pour recevoir nos actualités.

Inscrivez-vous à notre newsletter et restez au courant des dernières actualités et des offres exclusives.

Demo
Facebook X (Twitter) Instagram LinkedIn
© 2026 Zagla. All Rights Reserved.

Type ci-dessus et appuyez sur Enter pour la recherche. Appuyez sur Esc pour annuler.