Vulnerabilité critique dans Apache Tika s’étend au-delà de son périmètre initial
Une faille d’injection d’entités externes (XXE) découverte dans le module PDF d’Apache Tika, initialement signalée sous le nom CVE‑2025‑54988, s’est révélée plus vaste que prévu. Le problème, qui permettait à un attaquant d’injecter des instructions XML Forms Architecture (XFA) dans des fichiers PDF frauduleux, a été corrigé en août dernier pour le module tika-parser-pdf-module. Mais les équipes de maintenance ont constaté que l’attaque exploitait une faiblesse commune à plusieurs composants de Tika, élargissant ainsi la portée de la vulnérabilité.
Portée élargie et gravité maximale
Les recherches ont montré que l’injection XXE affecte non seulement le module PDF, mais également les noyaux tika-core (versions 1.13 à 3.2.1) et tika-parsers (versions 1.13 à 1.28.5). Les anciennes versions de l’analyseur, jusqu’à la série 1.28.5, restent vulnérables. Pour refléter cette portée accrue, une nouvelle identifiant de vulnérabilité, CVE‑2025‑66516, a été créée avec un score de gravité maximal de 10, la note la plus élevée possible.
Risques opérationnels
Les applications qui utilisent Apache Tika pour normaliser les données provenant de milliers de formats propriétaires sont désormais exposées à plusieurs attaques potentielles :
- Lecture de données sensibles – un fichier PDF malveillant pourrait entraîner la divulgation d’informations internes.
- Exécution de requêtes malveillantes – l’attaquant peut déclencher des appels vers des ressources internes ou des serveurs tiers, compromettant la disponibilité et la confidentialité.
- Exfiltration de données – en manipulant le pipeline de traitement de documents, un cybercriminel pourrait récupérer des données et les transférer hors de l’environnement sécurisé.
Bien que aucune exploitation publique n’ait été signalée à ce jour, la présence de deux CVE pour le même problème indique un risque accru, notamment si des exploits deviennent disponibles.
Correctifs et mesures d’atténuation
Les utilisateurs sont priés de mettre à jour vers les versions corrigées dès que possible :
tika-core→ 3.2.2tika-parser-pdf-module→ 3.2.2 (module PDF autonome)tika-parsers→ 2.0.0 (ou toute version ultérieure)
Ces correctifs sont essentiels pour les développeurs intégrant Tika dans leurs solutions. En attendant que les fournisseurs de logiciels appliquent les mises à jour, une mesure immédiate consiste à désactiver l’analyse XML dans les fichiers de configuration via tika-config.xml. Cette désactivation réduit la surface d’attaque en empêchant le traitement des entités externes.
Conclusion
Apache Tika, moteur de normalisation de documents largement utilisé pour l’indexation et la lecture, est désormais confronté à une vulnérabilité XXE qui a touché plusieurs de ses composants. Le score de gravité de 10 et la portée élargie exigent une mise à jour urgente. Les développeurs doivent non seulement appliquer les correctifs mais également envisager de désactiver l’analyse XML dans leurs configurations afin de garantir la sécurité de leurs pipelines de documents.
