Количество вредоносного программного обеспечения растёт такими темпами, что специалисты по информационной безопасности, особенно аналитики вредоносного кода, перестают успевать обрабатывать угрозы вручную. Классические методы автоматизации, основанные на сигнатурах и правилах, всё хуже справляются с новыми модификациями зловредов. Потребность в более умных и быстрых инструментах давно назрела, и похоже, что прорыв в этой области уже произошёл.
Описание
Инженеры Google решили проверить, насколько эффективно их большая языковая модель Gemini 1.5 Pro справляется с задачами, которые обычно решают живые эксперты. Они дали модели простую команду: проанализировать код, определить, является ли файл вредоносным, и перечислить признаки заражения, так называемые индикаторы компрометации. Результаты оказались впечатляющими.
Главное отличие Gemini 1.5 Pro от других современных генеративных моделей, как сообщили в официальном отчёте Google, заключается в способности обрабатывать до одного миллиона токенов. Это технический термин, обозначающий единицу измерения фрагментов текста или кода, которую модель воспринимает за раз. Предыдущие поколения нейросетей были вынуждены делить большие файлы на куски, что сильно снижало качество анализа. Когда код разбит на фрагменты, теряется общий контекст, и модель начинает выдавать расплывчатые и неточные выводы. Gemini 1.5 Pro справляется с целым файлом за один подход, тратя на это около тридцати-сорока секунд.
Что это значит на практике? Возьмём реальный пример, описанный в документе. Исследователи взяли два исполняемых файла печально известной программы-вымогателя WannaCry, которая в 2017 году заразила сотни тысяч компьютеров по всему миру. Бинарные файлы были пропущены через декомпилятор - специальную программу, которая восстанавливает из машинного кода на ассемблере более читаемый исходный код на языке C. На выходе получилось два файла объёмом 268 и 231 килобайт, что в сумме составило более 280 тысяч токенов. Другие генеративные модели пришлось бы кормить этими файлами по частям. Gemini 1.5 Pro проглотила их целиком за тридцать четыре секунды.
Результат анализа был точен. Модель не просто сказала: "это зловред". Она объяснила, что перед ней программа-вымогатель, указала конкретные файлы, которые являются индикаторами заражения, описала алгоритмы генерации IP-адресов для поиска жертв в сети и даже упомянула знаменитый механизм "аварийного выключателя" WannaCry - домен, который прекращает распространение вируса. Важно понимать, что Gemini не запомнила этот факт из какого-то справочника. Она пришла к этим выводам, самостоятельно прочитав код и интерпретировав его логику.
Однако настоящей проверкой для любой системы анализа становится способность обнаруживать неизвестные угрозы, так называемые уязвимости "нулевого дня". Именно здесь старые антивирусные движки, работающие по сигнатурам, часто терпят неудачу. Исследователи провели эксперимент с файлом, который в момент проверки не обнаруживал ни один из семидесяти антивирусных движков на платформе VirusTotal. Файл был дизассемблирован, то есть преобразован не в высокоуровневый язык C, а в более сложный и подробный язык ассемблера. Полученный файл размером полтора мегабайта Gemini обработала за сорок шесть секунд.
Анализ показал поразительный результат. Модель уверенно заявила, что файл вредоносный, и описала его назначение. Оказалось, что это программа-чит для видеоигры Grand Theft Auto, которая внедряет вредоносную динамическую библиотеку в игровой процесс. С точки зрения разработчиков игры и их систем защиты от мошенничества, этот файл однозначно является вредоносным. Для обычных игроков, которые хотят получить читерское преимущество, он может быть и желательным, но это не отменяет факта нарушения правил безопасности.
Самый показательный случай в отчёте касается анализа файла medui.exe. Этот файл размером 833 килобайта на момент проверки не выявлялся ни одним антивирусом и не давал никаких подозрительных сигналов в изолированной среде запуска. Декомпилированный код занял около 189 тысяч токенов. Gemini 1.5 Pro обработала его за двадцать семь секунд и выдала однозначный вредоносный вердикт, а главное - объяснила, что делает эта программа. Модель пришла к выводу, что её истинная цель - кража криптовалют путём перехвата транзакций Bitcoin и отключения защитного программного обеспечения на заражённом компьютере. Фактически, нейросеть выступила в роли аналитика и распознала совершенно новую угрозу, которую классические средства защиты пропустили полностью.
Понятно, что до полной автоматизации анализа вредоносного кода ещё далеко. Разработчики зловредов постоянно применяют новые методы запутывания кода, используют упаковщики, которые скрывают истинную логику программы. Кроме того, размеры современных исполняемых файлов растут, и даже миллион токенов Gemini однажды может стать пределом. Тем не менее, текущие достижения показывают, что генеративные нейросети способны радикально изменить подход к обратному проектированию вредоносных программ. Вместо того чтобы тратить часы и дни на анализ одного зловреда, специалисты смогут получать полноценный отчёт на понятном человеческом языке за считанные минуты, а затем тратить усилия на самые сложные случаи, которые требуют прямого вмешательства эксперта.
Индикаторы компрометации
SHA256
- 1917ec456c371778a32bdd74e113b07f33208740327c3cfef268898cbe4efbfe
- 24d004a104d4d54034dbcffc2a4b19a11f39008a575aa614ea04703480b1022c
- 719b44d93ab39b4fe6113825349addfe5bd411b4d25081916561f9c403599e50
- ed01ebfbc9eb5bbea545af4d01bf5f1071661840480439c6e5babe8e080e41aa