This link has been bookmarked by 7 people . It was first bookmarked on 10 Dec 2007, by Sylvie Le Bars.
-
-
- à classifier automatiquement des documents
- à avoir un aperçu du contenu d’un document sans le lire
- à alimenter automatiquement des bases de données
- à faire de la veille sur des corpus documentaires importants
- à enrichir l’index d’un moteur de recherche pour améliorer la consultation des documents
A quoi cela peut bien servir ?
-
- D’abord le logiciel doit reconnaître les unités de la langue que sont les mots (tokenisation)
- Ensuite il doit savoir interpréter et prendre en compte la ponctuation et la mise page (retour à la ligne, paragraphe, etc.)
- Puis les formes lexicales et grammaticales, qui peuvent énormément varier selon que la langue est l’anglais, l’arabe ou le chinois.
- Ensuite, il y a une phase de lemmatisation : elle consiste à identifier les différentes flexions d’un terme, ou déclinaisons d’un verbe.
Il y a quelques règles de base que les outils de text-mining se doivent de respecter dans leur traitement. Ces règles de base sont plus ou moins chronologiquement les suivantes :
L’ensemble des phases précédentes relèvent de ce que j’appelle l’analyse linguistique, au sortir de laquelle nous avons un document que le logiciel de text-mining a transformé. Si le document initial était fait pour les yeux de l’humain, le document après traitement est fait pour un traitemtn par les machine
- 5 more annotations...
-
-
Christophe DeschampsExcellente intro au text-mining par Christian Fauré.
Would you like to comment?
Join Diigo for a free account, or sign in if you are already a member.