Enterprise Search : Valorisez votre patrimoine documentaire ! - Partie 2

entrepise search

Et concrètement : comment fait-on ?

Il n’y a pas de recette universelle pour mettre en place une solution de recherche au sein d’une entreprise ou d’une organisation. Il y a par contre des axes de réflexion clés à avoir en tête pour bien mettre en œuvre un moteur de recherche d’Entreprise.

Ne pas penser sa recherche d’Entreprise comme une recherche internet

La promesse de tous les éditeurs de solutions de recherche d’Entreprise est simple et se résume à « Retrouver rapidement une information depuis un point d’accès unique ».

L’interprétation alors rapide que nous sommes tentés de faire est : « Avoir son Google au sein de son entreprise ». La perspective est alléchante au premier abord, sauf que : l’entreprise n’est pas le web ; une recherche d’Entreprise n’est pas Google

Au jeu des différences, on peut noter :

  • L’attente sur les résultats remontés: une recherche sur Google peut s’apparenter à une bouteille à la mer. L’utilisateur sait ce qu’il cherche mais ne sait pas ce qu’il va trouver. En entreprise c’est le contraire ! Un utilisateur sait ce qu’il veut trouver mais ne sait pas forcément comment le chercher. Le risque principal est le rejet de l’outil sous prétexte « qu’il ne trouve rien ». Il en résulte donc un travail particulier sur l’enrichissement, la pertinence mais aussi l’accompagnement de l’utilisateur dans l’outil et ses fonctionnalités.
  • Typologie et qualité de la donnée source: Les moteurs de recherche internet vont d’abord se concentrer sur les pages web. Pages qui sont optimisées afin d’être correctement indexées et ainsi apparaître en bonne place dans les résultats de recherche (ranking et SEO). Un moteur de recherche d’Entreprise va privilégier les documents et surtout se concentrer sur le contenu indépendamment de sa forme. Tout contenu indexé doit pouvoir être retrouvé. En entreprise, c’est le moteur qui s’adapte au contenu et non le contraire.
  • La sécurité : Par défaut, tous les contenus internet indexés par Google sont publics. En entreprise, tout contenu va être soumis à une sécurité particulière. Cette sécurité doit être prise en compte par un moteur de recherche d’Entreprise. Ce traitement des droits à l’information à chaque requête peu impacter significativement la performance de la recherche selon la complexité de la sécurité mise en œuvre et la solution de recherche choisie.
  • Les facettes et l’enrichissement : C’est finalement la différence la plus visible entre une recherche Web et une recherche d’Entreprise. Sur Google, un utilisateur va s’appuyer sur les 10 meilleurs résultats remontés pour juger de la pertinence de sa recherche –et non pas de la pertinence des résultats remontés – et ajuster sa requête si besoin. Ce même utilisateur va se voir proposer des assistances pour ajuster sa requête : les facettes. Un peu à l’instar des dimensions dans un cube, les facettes constituent des axes de navigation dans les résultats de recherche. Principalement issues des métadonnées d’un document, surtout lorsque celui-ci est stocké dans une GED ou une plateforme collaborative, les données alimentant les facettes peuvent aussi être déterminées via des mécaniques d’extraction. Ces mécaniques s’appuient sur un vocabulaire commun, une terminologie commune à une majorité du contenu indexé. Il est difficile de trouver des vocables communs à toute la toile ! Un moteur de recherche internet ne peut donc que proposer un faible nombre de facettes, reposant majoritairement sur des données techniques (type de document, taille du document, date…).

Connaître et cartographier son patrimoine informationnel

La mise en place d’un moteur de recherche présuppose que l’on sache sur quelles données on va effectuer les recherches, quelles données l’on va indexer.

Au-delà du triptyque standard Intranet / Partage de fichiers / GED, il est important de définir toutes les sources que l’on veut indexer à court, moyen et long termes. Pour chaque source, un travail systématique est nécessaire d’analyse de la forme de la donnée, sa volumétrie et son taux de croissance (passé et futur), sa sécurité, son niveau de confidentialité ainsi que des manières de s’y connecter (interface web, requêtes en base de données, web services).

Ce premier travail de cartographie va, entre autres, permettre de faire le tour de la connectivité nécessaire dans la solution de recherche et ainsi constituer un premier critère de choix de celle-ci.

moteur sharepoint

Exemple de cartographie des sources du moteur de recherche et indentification du connecteur de crawl associé (moteur SharePoint)

Identifier des leviers d’enrichissement « Quick Win »

En dehors de l’intranet et de la GED, on doit s’attendre à des gisements de métadonnées relativement pauvres et peu fiables.

Prenons l’exemple du File Share :

Un File Share contient des types de documents hétérogènes, des documents créés à partir de copies et non de modèles (selon les métadonnées, un seul employé serait l’auteur de l’intégralité de documents de l’Entreprise ?!), n’a pas d’organisation globale et partagée par toute l’entreprise, ne propose pas de gestion de versions… Bref, le parfait « mauvais élève » en terme de gestion documentaire, mais un mauvais élève utilisé partout, et qui constitue encore actuellement le premier espace de collaboration en Entreprise.

Que pouvons-nous créer comme valeur ajoutée ?

Un premier constat est l’organisation relativement classique des file shares et ce, quelle que soit l’entreprise :

  • Niveau 0 (le nom du Share lui-même) est associé à un élément organisationnel de l’Entreprise : la direction, le service
  • Niveau 1 : (répertoires de premier niveau) : correspondra la plupart du temps à un service si le niveau 0 est une direction, une mission du service si le niveau précédent est un service.
  • Niveaux supérieurs : ici, plus de règle. Chaque portion d’arborescence aura sa logique propre. Correspondant, soit à la logique de l’unité organisationnelle possédant les documents, soit à la logique de l’auteur lui-même.

On va dans un premier temps s’appuyer sur le chemin des documents pour en déduire des métadonnées complémentaires. Les niveaux 0 et 1 peuvent être extraits (configuration d’extracteurs sur la base de patterns + dictionnaires) pour en déduire des métadonnées complémentaires sur la direction/le service ainsi que la mission/thématique principale associés au document. Pour les niveaux supérieurs, un travail complémentaire sera nécessaire :

  • Soit on identifie un pattern d’organisation reproductible, dans ce cas le travail d’enrichissement continue, avec en plus la possibilité de hiérarchiser l’information extraite (traduction du pattern « dossier > Sous-dossier » en « terme > sous-terme »), »). On va pouvoir alors constituer des taxonomies.
  • Soit il n’y a pas de schéma déductible, il nous restera la possibilité d’utiliser les termes extraits des répertoires comme mots-clés, pouvant être pris en compte lors du calcul de la pertinence (i.e. le ranking).

Sur le contenu lui-même (i.e. les documents), la mise en place d’extracteurs sur la base des terminologies métier de l’entreprise permettront aussi de reconstruire rapidement des métadonnées de qualité sur les documents : les noms des clients, les noms des produits ou les noms des processus sont autant d’informations facilement récupérables dans des applicatifs métiers et donc facilement utilisables par la recherche d’Entreprise.

Bâtir sa stratégie de recherche

Une fois le corpus documentaire identifié et la cartographie effectuée : on va procéder à la configuration puis l’indexation des sources dans la solution de recherche. Le lancement des indexations est un travail méticuleux, nécessitant un séquencement parfait. Il ne s’agit pas de brancher toutes les sources et de laisser faire le système. Un plan de bataille est nécessaire.

On va alors principalement prendre en comptes 2 types de problématiques :

  • Des problématiques techniques : évaluer l’impact du moteur de recherche sur l’infrastructure globale lors du processus d’indexation.
  • Des problématiques fonctionnelles portant sur la confidentialité de la donnée.

Sur les aspects techniques, il faut se concentrer sur l’infrastructure réseau et les serveurs stockant les données à indexer. Lors de la première indexation, le moteur de recherche va traiter l’intégralité du corpus. C’est-à-dire qu’il va appeler tous les documents constituant ce corpus aux différentes plateformes de stockage et les faire transiter sur le réseau jusqu’aux serveurs d’indexation contenant les mécaniques de traitement de l’information et l’index de recherche. Ce volume peut très rapidement s’élever à plusieurs Téraoctets.

Pour chaque source on déterminera alors le ratio idéal entre le temps global d’indexation et la charge des serveurs sollicités.

Sur les aspect confidentialité, on commence toujours par indexer les données les moins confidentielles pour terminer sur les plus confidentielles (données financières, données RH…). Un index de recherche étant une représentation « à plat » des données, seule la sécurité propre de chaque document de prise en compte lors de la restitution à l’utilisateur.

Continuons avec l’exemple de file Share :

Le modèle de permissions Microsoft est basé sur un système d’héritage : par défaut, un document hérite de la sécurité du répertoire le contenant et ainsi de suite. Ces permissions peuvent être – et le sont à l’usage – cassées pour appliquer à une sous-arborescence donnée d’autres permissions. A l’usage, un utilisateur accède aux documents du file share par navigation en descendant dans les répertoires auxquels il a droit. Il n’est donc pas en mesure de voir qu’il a potentiellement accès à des sous-arborescences sauf s’il en connait le chemin.

Une fois le contenu du file Share indexé, les documents sont sortis de leur arborescence et sont donc accessibles à l’utilisateur à la seule condition d’avoir les droits pour y accéder. Le moteur de recherche va mettre au jour dans ce cas précis tous les écarts entre les droits supposés et les droits réellement appliqués.

Prototyper, prototyper et encore prototyper

Le réglage fin d’un moteur de recherche résulte d’un long processus itératif de paramétrage et de ré-indexation.

Il est primordial, lors de la mise en place du prototype de recherche, de sélectionner un sous-ensemble du corpus final à indexer. Pour chaque source identifiée on sélectionne un panel représentatif de documents qui nous permettra de calibrer et paramétrer les extracteurs et facettes sur un volume de document « à taille humaine » et surtout, de ne pas perdre trop de temps lors des ré-indexations successives ; le temps d’indexation n’étant évidemment pas le même pour 100 documents que pour 100 000 !

Travailler sur un sous-ensemble de documents et non sur le corpus réel c’est aussi accepter des écarts de comportement qu’il faudra corriger lors de l’indexation finale (sur l’intégralité du corpus).

La pertinence tout d’abord. Le paramétrage du « ranking » requiert, une bonne connaissance de la solution de recherche mise en œuvre et une bonne connaissance de son corpus documentaire. On va privilégier dans certains cas la fraîcheur des résultats, alors que dans d’autres cas le titre du document pourra constituer le principal facteur de « ranking » des résultats. C’est un processus long, qui nécessitera encore des ajustements après l’ouverture du service de recherche aux utilisateurs. Les retours du terrain ainsi qu’un monitoring intensif sera alors nécessaire pour finaliser l’ajustement du moteur de recherche.

Les facettes ensuite. Seul le corpus complet permettra de valider définitivement le choix des facettes, de leurs valeurs ainsi que des valeurs seuil d’activation de ces facettes (combien d’occurrences vont activer l’affichage de la facette).

Les accélérateurs de recherche pour terminer. Chaque solution de recherche va proposer un certain nombre d’accélérateurs pouvant être mis à disposition des utilisateurs. Parmi les accélérateurs les plus communs on notera :

  • Le « did you mean » : permettant de corriger les termes de recherche de l’utilisateur pas des algorithmes linguistiques (correction des fautes d’orthographe) et des dictionnaires (termes métier)
  • Les suggestions de requête : généralement peu pertinentes voire inexistantes à l’ouverture du service, ces suggestions deviendront de plus en plus précises au fur-et-à-mesure que les utilisateurs utiliseront le service.
  • Les résultats promus : permettent de « pousser » artificiellement certains résultats lorsqu’un terme de recherche particulier est détecté dans la requête de l’utilisateur. Par exemple, lorsqu’un utilisateur saisit le nom d’une entité organisationnelle (service, département ou direction) on poussera alors en premier résultat la page intranet de présentation de cette entité.

Ces accélérateurs se monitorent et s’ajustent. Le niveau de paramétrage dépendra alors des possibilités offertes par la solution de recherche choisie.

Une démarche en 3 étapes clés

Nous pouvons résumer la mise en place d’un moteur de recherche en 3 étapes :

  1. L’établissement de la stratégie de collecte de la donnée : basée sur votre corpus documentaire, il s’agit de cartographier finement le patrimoine informationnel à indexer (forme, fréquence de mise à jour, sécurité. Etc.)
  2. L’établissement de la stratégie d’indexation et d’enrichissement : le plan de bataille. On identifie les champs de l’index, les connecteurs, les dictionnaires d’enrichissement, les règles d’extraction et on établit aussi un ordre d’indexation des sources cartographiées.
  3. L’établissement de la stratégie de restitution : la définition de l’interface de recherche en fonction des types de documents et métadonnées à valoriser et les possibilités offertes par la solution de recherche

En synthèse

La mise en place d’un moteur de recherche ne repose pas uniquement sur une approche technologique, c’est un projet d’Entreprise qui entraîne des réflexions sur l’organisation de l’information et donc l’organisation de l’entreprise elle-même – les 2 étant souvent liées-. Il soulève les problématiques de confidentialité et d’opacité de l’information et provoque une remise à plat de celle-ci. Il nécessite aussi de la part de l’entreprise une compréhension précise des besoins de ses collaborateurs. Lorsqu’un utilisateur recherche de l’information, il le fait dans un but précis afin de réaliser une tâche particulière : prendre une décision, acquérir de nouvelles connaissances etc.  Au-delà de la frustration de ne pas trouver les informations nécessaires, le risque d’utilisation d’informations erronées ou obsolètes est réel.

L’effacement de la notion de silos au profit de la donnée elle-même constitue un gain de productivité et propose à tout un chacun une hauteur de vue difficilement atteignable avec le d’information fractionnée. Au-delà du décloisonnement, la mise en place d’un moteur de recherche d’Entreprise déclenche inévitablement une réflexion profonde et interroge la capacité de l’organisation à se transformer, tant d’un point de vue organisationnel que technologique. Elle constitue donc un formidable levier de transformation digitale de l’Entreprise.

Comme tout projet de transformation, le succès de la mise en place d’un moteur de recherche s’obtient par un effort de communication et de conduite du changement. Le projet doit être expliqué, défendu et fortement sponsorisé (surtout par les DSI) au sein de l’organisation afin de s’assurer de l’adhésion des utilisateurs. Un tel projet ne peut être légitimé que si les objectifs à long terme sont compris par tous.

 

0 commentaires

votre commentaire

Se joindre à la discussion ?
Vous êtes libre de contribuer !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Inscription newsletter

Ne manquez plus nos derniers articles !