В фреймворке для анализа контента Apache Tika обнаружена критическая уязвимость, позволяющая злоумышленникам атаковать серверы путём простой загрузки специально созданного PDF-документа. Об этом сообщается в официальном бюллетене безопасности, опубликованном сопровождающими проекта Apache. Проблема получила идентификатор CVE-2025-66516.
Детали уязвимости
Уязвимость затрагивает сразу несколько ключевых компонентов: Apache Tika Core, Apache Tika Parsers и модуль Apache Tika PDF Parser. Эксперты оценивают её уровень опасности как критический. Под угрозой находится широкий спектр версий, которые активно используются в конвейерах анализа контента, поисковых системах и системах обработки документов.
Суть проблемы заключается в уязвимости типа XXE (XML External Entity, или внешняя XML-сущность). Она возникает при обработке Apache Tika компонента XFA (XML Forms Architecture), встроенного в PDF-файлы. Когда система обрабатывает специально сформированный PDF, содержащий вредоносный компонент XFA, она может некорректно интерпретировать внешние XML-сущности. В результате злоумышленник получает возможность читать локальные файлы на сервере, обращаться к внутренним сетевым ресурсам или извлекать другие конфиденциальные данные из среды, где запущен Apache Tika.
Затронутыми являются следующие версии компонентов. Во-первых, Apache Tika core (org.apache.tika:tika-core) с версии 1.13 по 3.2.1 включительно. Во-вторых, Apache Tika parsers (org.apache.tika:tika-parsers) с версии 1.13 до 2.0.0. В-третьих, модуль Apache Tika PDF parser (org.apache.tika:tika-parser-pdf-module) с версии 2.0.0 по 3.2.1.
Данная уязвимость тесно связана с ранее раскрытой проблемой CVE-2025-54988, однако CVE-2025-66516 расширяет перечень затронутых артефактов. Изначально сообщалось, что точкой входа является именно модуль парсера PDF, однако Apache позже уточнил, что коренная причина и исправление находятся в ядре Tika Core. Следовательно, организации, которые обновили только модуль парсера PDF, но не выполнили обновление tika-core до безопасной версии (не ниже 3.2.2), всё ещё остаются уязвимыми.
Кроме того, в новом бюллетене отмечается важный нюанс для старых релизов Tika версии 1.x. В них парсер PDF был встроен в общий модуль tika-parsers. Эти более ранние пакеты изначально не были явно указаны в первом предупреждении, из-за чего некоторые развёртывания могли не осознавать свою подверженность атаке.
В реальных условиях Apache Tika часто интегрирован в рабочие процессы загрузки файлов, системы поисковой индексации, конвейеры приёма данных, а также в средства безопасности, которые автоматически анализируют и извлекают содержимое документов. В подобных настройках злоумышленник может загрузить специально созданный PDF, вызвать уязвимую логику парсинга и использовать XXE для извлечения секретов, таких как ключи API или файлы конфигурации. Впоследствии это может стать плацдармом для дальнейшего продвижения во внутреннюю инфраструктуру.
Для устранения угрозы сопровождающие Apache настоятельно рекомендуют администраторам и разработчикам предпринять ряд действий. Прежде всего, необходимо выяснить, используют ли их приложения затронутые версии tika-core, tika-parsers или tika-parser-pdf-module. Далее, требуется обновить tika-core до версии 3.2.2 или новее, а также обеспечить согласованное обновление всех связанных компонентов Tika. Важно помнить, что частичное обновление может не устранить риск полностью.
Также эксперты советуют провести аудит всех систем, обрабатывающих ненадёжные PDF-файлы, особенно публичных конечных точек загрузки. В качестве дополнительных мер защиты следует рассмотреть усиление конфигурации и валидацию входящих данных. Своевременное применение патчей критически важно, поскольку подобные уязвимости в популярных библиотеках для обработки документов часто становятся мишенью для злоумышленников, стремящихся к несанкционированному доступу к корпоративным данным.
Ссылки
- https://www.cve.org/CVERecord?id=CVE-2025-66516
- https://lists.apache.org/thread/s5x3k93nhbkqzztp1olxotoyjpdlps9k