Agence universitaire de la Francophonie

Infothèque francophone
RESSOURCES EN LIGNE ET ACTUALITÉS
SCIENTIFIQUES FRANCOPHONES


6233 - Indexation et interrogation de chemins de lecture en contexte pour la recherche d'information structurée sur le web

Thèse, mémoire de diplôme

Description bibliographique

Auteur :
Gery, Mathias (UJF. Université Joseph Fourier. Grenoble 1. UFR en Informatique et Mathématiques appliquées. France) ; Chiaramella, Yves (dir.) (UJF. Université Joseph Fourier, Grenoble 1. CLIPS. Communication langagière et interaction personne-système. Grenoble. France)
Éditeur :
CNRS. Centre national de la recherche scientifique. CCSD. Centre pour la communication scientifique directe. France
Page source :
TEL, Serveur de thèses multidisciplinaire du CCSD, http://tel.ccsd.cnrs.fr
Langue :
français
Diplôme :
Thèse, informatique systèmes et communication, 2002/10/24

Description du contenu

Spécialité :
Sciences de l'homme - Information et communication - Recherche d'information, veille
Electronique, informatique et télécommunications - Applications informatiques spécifiques - Modélisation
Mots clés :
recherche d'information ; World Wide Web ; hypertexte ; structure ; chemin de lecture ; contexte ; zone de pertinence
Table des matières :
Introduction
I Utilisation de la structure en recherche d'information
1. Structure du Web
2. Intégrer la structure à l'indexation
3. Intégrer la structure à l'interrogation
4. Structure du Web et RI
II Un modèle de recherche d'information structurée en contexte
1. L'information structurée sur le Web
2. Modèle d'hyperdocuments en contexte
3. Indexation et interrogation structurées
III Mise en oeuvre : Un système de RI structurée sur le Web
1. Expérimentations et évaluation
2. Un SRI structurée sur le WEB
IV Conclusion
2. Modèle d'hyperdocuments en contexte
Résumé :
L'explosion du Web représente un nouveau défi pour la Recherche d'Information (RI). La plupart des systèmes actuels d'accès à l'information sont basés sur des modèles classiques, qui ont été développés pour des documents textuels, atomiques et indépendants et qui ne sont pas adaptés au Web. La structure du Web est un aspect essentiel de la description de l'information. Les travaux qui utilisent cette structure pour la RI simplifient le modèle du Web en un graphe orienté, dont les noeuds sont des pages HTML et les arcs sont des liens hypertextes, sans tenir compte du type des liens. L'objectif de ce travail est de prendre en compte l'impact des liens lors de la phase d'indexation et à la phase d'interrogation d'un système de Recherche d'Information Structurée (SRIS). Le modèle de RI proposé est fondé sur un modèle d'hyperdocuments en contexte considérant quatre facettes de la description d'information sur le Web : le contenu, la structure hiérarchique, la lecture linéaire/déambulatoire et le contexte. Un hyperdocument est modélisé par un contenu au sens des documents structurés, un ensemble de chemins de lecture et un contexte (espace d'information accessible et espace d'information référençant). Un processus d'indexation spécifique est proposé pour chaque facette. L'évaluation de notre système SmartWeb montre l'intérêt de l'information accessible combinée avec le contenu. Puis, à l'aide de collections de test structurées construites automatiquement, nous montrons l'intérêt d'une indexation au niveau des documents structurés et des chemins de lecture. Le modèle est également implanté dans un SRIS complet, montrant la faisabilité de notre approche dans sa globalité et sur le Web. Le typage des liens est à la fois un des aspects les plus importants du modèle et une difficulté majeure de sa mise en oeuvre : nous montrons qu'il est possible d'extraire une structure hiérarchique du Web et d'identifier différentes granularités d'information. (résumé d'auteur)

Accès à la ressource

gratuit
Format :
PDF
Taille du fichier : entre 2 et 5 Mo
Notes :
264 pages
URL de référence :
http://tel.ccsd.cnrs.fr/documents/archives0/00/00/44/53/index_fr.html
Autres URLs :
http://tel.ccsd.cnrs.fr/documents/archives0/00/00/44/53/tel-00004453-00/tel-00004453.pdf

Notice mise en ligne le 08/09/2004