6234 - Extraction et impact des connaissances sur les performances des systèmes de recherche d'information
Thèse, mémoire de diplôme
Description bibliographique
- Auteur :
- Haddad, Mohamed Hatem (UJF. Université Joseph-Fourier, Grenoble 1. France) ; Bruandet, Marie-France (dir.)
- Éditeur :
- CNRS. Centre national de la recherche scientifique. CCSD. Centre pour la communication scientifique directe. France
- Page source :
- TEL, Serveur de thèses multidisciplinaire du CCSD, http://tel.ccsd.cnrs.fr
- Langue :
- français
- Diplôme :
- Thèse, informatique, 2002/09/24
Description du contenu
- Spécialité :
- Sciences de l'homme - Information et communication - Recherche d'information, veille
Electronique, informatique et télécommunications - Applications informatiques spécifiques - Applications informatiques spécifiques : généralités Electronique, informatique et télécommunications - Logiciels - Bases de données, systèmes d'information
- Mots clés :
- recherche d'information ; fouille de données textuelles ; modèle d'indexation syntagmatique
- Table des matières :
- I Introduction, problématique et état de l'art
1. Introduction
2. Acquisition de connaissances à partir du texte
II Fouille de données pour la recherche d'information
1. Fouille de données
2. La fouille de données textuelles
3. Les règles d'association dans la recherche d'information
4. Extraction et exploitation de règles d'association
III Les syntagmes nominaux pour représenter le sens
1. Représentation du contenu textuel
2. Méthodologie d'extraction des syntagmes nominaux
3. Structuration des SNs
4. Un modèle d'indexation relationnelle basé sur les syntagmes
5. Conclusion et apport
- Résumé :
- Dans un contexte riche d'information, un système de recherche d'information doit être capable de trouver les meilleurs résultats possibles dans un océan d'information. Notre étude s'intéresse aux connaissances qui peuvent être extraites du contenu textuel des documents en associant la finesse d'analyse d'une approche linguistique (extraction et structuration) à la capacité d'une approche statistique de traiter de gros corpus. L'approche statistique se base sur la fouille de données textuelles et principalement la technique de règles d'association. L'approche linguistique se base sur les syntagmes nominaux que nous considérons comme des entités textuelles plus susceptibles de représenter l'information contenue dans le texte que les termes simples. Elle explicite les contraintes linguistiques nécessaires à l'extraction des syntagmes nominaux et défini les rapports syntagmatiques entre les composantes d'un syntagme nominal. Ces relations syntagmatiques sont exploitées pour la structuration des syntagmes nominaux. Une mesure, appelée "quantité d'information", est proposée pour évaluer le pouvoir évocateur de chaque syntagme nominal, filtrer et comparer les syntagmes nominaux. Le modèle proposé démontre que la combinaison d'une approche statistique et d'une approche linguistique affine les connaissances extraites et améliore les performances d'un système de recherche d'information. (résumé de l'auteur)
Accès à la ressource
gratuit
- Format :
- PDF
Taille du fichier : entre 1 et 2 Mo
- Notes :
- Document de 273 p.
- URL de référence :
- http://tel.ccsd.cnrs.fr/documents/archives0/00/00/44/59/tel-00004459-00/tel-00004459.pdf
Notice mise en ligne le 10/03/2004 |