lundi 2 novembre 2009

Indexation de fichiers .ZIP avec Oracle Secure Enterprise Search (SES)

Version utilisée : Oracle SES 10.1.8.4

Oracle Secure Enterprise Search (SES) permet d’indexer le contenu de fichiers qui ont été compressés au format .zip.

On peut distinguer deux cas de figure :

  • Un fichier, quel que soit son format natif, fait l’objet d’une compression dans un fichier .zip
  • Un container au format .zip contient plusieurs fichiers dont les formats font parti de ceux supportés nativement par Oracle SES.

Les deux cas de figure sont supportés. Dans le deuxième, il existe une limitation de 1000 documents maximum par fichier .zip.

Illustration

Scénario 1

Considérons la source de type FileSystem nommée CVs.

clip_image002

On doit préciser au préalable précise, pour cette source, les formats de fichiers qui feront l’objet d’une indexation (ZIP Archive, en particulier)

clip_image002[4]

On ajoute un fichier dans un format .zip (actualite.txt) à la source nommée CVs :

clip_image004

Oracle SES retrouve bien le document et affiche un extrait du début de texte (dont la longueur est paramétrable)

clip_image002[6]

Scénario 2 :

On ajoute un fichier .zip qui contient trois fichiers distincts

clip_image002[8]

On effectue une recherche sur un autre mot clef, et SES retrouve bien deux documents parmi les trois qui contenaient le mot recherché

clip_image004[4]

Remarque: si le même fichier actualité.txt figure dans plusieurs sources indexées par Oracle SES, et qu’il y a identité parfaite de contenu (en fonction d’une checksum calculée par SES), le moteur de recherche de retournera qu’une seule version du document. Cela est une fonctionnalité intéressante qui permet d’alléger la listes de recherche qui est renvoyée à l’utilisateur.

Références

Informations supplémentaires sur le moteur de recherche Oracle SES.

0 commentaires: