Version utilisée : Oracle SES 10.1.8.4
Oracle Secure Enterprise Search (SES) permet d’indexer le contenu de fichiers qui ont été compressés au format .zip.
On peut distinguer deux cas de figure :
- Un fichier, quel que soit son format natif, fait l’objet d’une compression dans un fichier .zip
- Un container au format .zip contient plusieurs fichiers dont les formats font parti de ceux supportés nativement par Oracle SES.
Les deux cas de figure sont supportés. Dans le deuxième, il existe une limitation de 1000 documents maximum par fichier .zip.
Illustration
Scénario 1
Considérons la source de type FileSystem nommée CVs.
On doit préciser au préalable précise, pour cette source, les formats de fichiers qui feront l’objet d’une indexation (ZIP Archive, en particulier)
On ajoute un fichier dans un format .zip (actualite.txt) à la source nommée CVs :
Oracle SES retrouve bien le document et affiche un extrait du début de texte (dont la longueur est paramétrable)
Scénario 2 :
On ajoute un fichier .zip qui contient trois fichiers distincts
On effectue une recherche sur un autre mot clef, et SES retrouve bien deux documents parmi les trois qui contenaient le mot recherché
Remarque: si le même fichier actualité.txt figure dans plusieurs sources indexées par Oracle SES, et qu’il y a identité parfaite de contenu (en fonction d’une checksum calculée par SES), le moteur de recherche de retournera qu’une seule version du document. Cela est une fonctionnalité intéressante qui permet d’alléger la listes de recherche qui est renvoyée à l’utilisateur.
Références
Informations supplémentaires sur le moteur de recherche Oracle SES.
Commentaires