Skip to main contentdfsdf

Lionel Dujol

Créons des communs numériques - un guide pas à pas pour permettre aux acteurs publics de créer ou participer à des communs numériques

"Le numérique est la source d’un nouvel essor pour le mouvement de commun, ce n’est donc pas une surprise si de plus en plus d’industries se regroupent afin de faire émerger de tels communs comme alternatives viables aux logiques des acteurs dominants du numérique"

Shared by Lionel Dujol, 3 saves total

Lionel Dujol

Common Corpus: building AI as Commons – Open Future

Il y a un vrai enjeu à constituer un méga-corpus d’entraînement multilingue pour que les IA soient justes et transparentes. Parce qu’aujourd’hui la compétition est moins sur les modèles de langues qui vont probablement se stabiliser en performances que sur les masses de données sur lesquelles ils peuvent s’entraîner. Ce corpus en communs mérite largement son nom, c’est un commun de la connaissance à grande échelle, il faut en prendre soin et le réguler à ce titre.

Shared by Lionel Dujol, 1 save total

  • Pierre-Carl made also a key point about the ongoing-push for counter regulation –with the New York Times suing Microsoft and OpenAI for infringement of the publisher’s copyrights. This will lead AI companies to sign licensing deals with rightsholders. There are first examples of such deals: between Reddit and Google, or Le Monde and OpenAI. A licensed approach to model training creates one more risk of gatekeeping, as only the largest companies will be able to afford the licensing costs. Launched a bit over a month ago, Common Corpus is an attempt to address these challenges by presenting a new way of contributing to the development of AI as Commons.

     

    As the largest training data set for language models based on open content to date, Common Corpus is built with open data, including administrative data as well as cultural and open-science resources – like CC-licensed YouTube videos, 21 million digitized newspapers, and millions of books, among others.  With 180 billion words, it is currently the largest English-speaking data set, but it is also multilingual and leads in terms of open data sets in French (110 billion words), German (30 billion words), Spanish, Dutch, and Italian. Developing Common Corpus was an international effort involving a spectrum of stakeholders from the French Ministry of Culture to digital heritage researchers and open science LLM community, including companies such as HuggingFace, Occiglot, Eleuther, and Nomic AI. The collaborative effort behind building the data set reflects a vision of fostering a culture of openness and accessibility in AI research. Releasing Common Corpus is an attempt at democratizing access to large, quality data sets, which can be used for LLM training. Common Corpus aims to become a key component of a wider pretraining Commons ecosystem such as the “licensed” Pile currently prepared by Eleuther.

Lionel Dujol

2020 - Baromètre Green IT

"L’objectif du baromètre est d’évaluer les gisements d'équipements informatiques et bureautiques présents dans les entreprises et plus généralement la maturité des entreprises en France sur les bonnes pratique du numérique responsable. Pour en avoir une vision globale, 26 indicateurs clés répartis entre 8 grandes thématiques ont été élaborés : les infrastructures informatiques, les data centers, l’impression, la fin de vie, les achats, la gouvernance, les postes de travail et les applications."

Shared by Lionel Dujol, 1 save total

peir ric
  • cet outil (et ses petits frères LLM) aurait surtout un impact quand il s’intègrerait discrètement dans nos applications du quotidien
  • Google a commencé par tenter de s’appuyer sur les métadonnées pour pouvoir répondre de manière pertinente à au moins certaines questions, avec le « knowledge graph ».

11 more annotations...

Show more items

Highlighter, Sticky notes, Tagging, Groups and Network: integrated suite dramatically boosting research productivity. Learn more »

Join Diigo