Критический обход пути в библиотеке unstructured угрожает ядру корпоративного ИИ

vulnerability

Исследователи в области кибербезопасности выявили критическую уязвимость в популярной библиотеке "unstructured", разработанной компанией Unstructured.io. Этот инструмент стал де-факто стандартом для подготовки неструктурированных корпоративных данных к анализу системами искусственного интеллекта. Уязвимость, зарегистрированная под идентификатором CVE-2025-64712, получила максимально высокий рейтинг 9.8 баллов по шкале CVSS. Она позволяет злоумышленникам осуществлять произвольную запись файлов, что в итоге может привести к удаленному выполнению кода.

Детали уязвимости

Библиотека "unstructured" играет ключевую роль в современных AI-пайплайнах. Она преобразует сложные для машинного анализа документы - PDF, презентации, электронные письма и изображения - в структурированный текст и векторные представления. Эти данные затем используются чат-ботами и RAG-системами (Retrieval-Augmented Generation - генерация с извлечением информации). По оценкам аналитиков, решения на базе этой библиотеки развернуты в большинстве компаний из списка Fortune 1000. Следовательно, масштаб потенциального воздействия огромен.

Техническая суть проблемы классифицируется как обход пути (path traversal). Уязвимость существует в модуле обработки писем Microsoft Outlook в формате ".msg". Когда библиотека извлекает вложения из такого письма, она некорректно формирует путь для сохранения временного файла. Исходное имя файла вложения просто присоединяется к базовому каталогу без необходимой проверки и нормализации.

Таким образом, злоумышленник, контролирующий имя вложения, может использовать специальные последовательности вроде "../" для выхода за пределы предназначенного каталога. Например, имя файла "../../../root/.ssh/authorized_keys" может привести к перезаписи SSH-ключей на атакуемом сервере. Эта операция обеспечивает злоумышленнику устойчивый доступ (persistence) к системе. Более того, модификация заданий планировщика "cron" или скриптов веб-приложений открывает путь к полному выполнению произвольного кода.

Риск усугубляется контекстом использования библиотеки. AI-пайплайны обработки данных часто работают с высокими привилегиями, имея доступ к обширным корпоративным хранилищам, системам тикетов и почтовым ящикам. Это делает успешную эксплуатацию уязвимости особенно разрушительной. Кроме того, "unstructured" часто интегрируется в другие фреймворки и оберточные библиотеки, что затрудняет оперативную инвентаризацию всех уязвимых систем.

Для снижения рисков эксперты рекомендуют немедленно предпринять несколько шагов. Во-первых, обработку непроверенных файлов следует изолировать, запуская сервисы в контейнерах или виртуальных машинах с минимальными правами. Во-вторых, процессы должны выполняться от имени непривилегированного пользователя, а не от "root". В-третьих, необходимо реализовать строгую нормализацию путей и использовать разрешительные списки для имен файлов, отбрасывая любые пути, содержащие элементы навигации.

В идеале, разработчикам стоит пересмотреть архитектуру, чтобы избегать сохранения на диск файлов с именами, контролируемыми извне. Обнаружение этой уязвимости в столь критически важном компоненте подчеркивает системные риски, связанные с зависимостью корпоративного ИИ от сложных открытых библиотек. Организациям, использующим "unstructured", необходимо срочно отслеживать выпуск патча от разработчика. После его выхода требуется немедленно обновить библиотеку и провести аудит конфигурации всех AI-пайплайнов обработки данных на предмет соблюдения принципа минимальных привилегий.

Ссылки

Комментарии: 0