Skip to main content

Diigo Home

Christian Fauré » Blog Archive » Introduction au Text-mining - The Diigo Meta page

www.christian-faure.net/...introduction-au-text-mining - Cached

This link has been bookmarked by 7 people . It was first bookmarked on 10 Dec 2007, by Sylvie Le Bars.

  • 07 Nov 09
  • 06 Nov 09
      • A quoi cela peut bien servir ?


        • à classifier automatiquement des documents
        • à avoir un aperçu du contenu d’un document sans le lire
        • à alimenter automatiquement des bases de données
        • à faire de la veille sur des corpus documentaires importants
        • à enrichir l’index d’un moteur de recherche pour améliorer la consultation des documents
      • Il y a quelques règles de base que les outils de text-mining se doivent de respecter dans leur traitement. Ces règles de base sont plus ou moins chronologiquement les suivantes :


        • D’abord le logiciel doit reconnaître les unités de la langue que sont les mots (tokenisation)
        • Ensuite il doit savoir interpréter et prendre en compte la ponctuation et la mise page (retour à la ligne, paragraphe, etc.)
        • Puis les formes lexicales et grammaticales, qui peuvent énormément varier selon que la langue est l’anglais, l’arabe ou le chinois.
        • Ensuite, il y a une phase de lemmatisation : elle consiste à identifier les différentes flexions d’un terme, ou déclinaisons d’un verbe.

        L’ensemble des phases précédentes relèvent de ce que j’appelle l’analyse linguistique, au sortir de laquelle nous avons un document que le logiciel de text-mining a transformé. Si le document initial était fait pour les yeux de l’humain, le document après traitement est fait pour un traitemtn par les machine

    • 5 more annotations...
  • 31 Oct 09
  • cristode
    Christophe Deschamps

    Excellente intro au text-mining par Christian Fauré.

    Ib textmining veille

  • 10 Dec 07