Инструменты ИИ в руках злоумышленников
Исследование решений на основе искусственного интеллекта, задействованных в мониторинге интернета и обеспечении безопасности пользователей. Анализ более 3 тыс. концепций, изобретений, прототипов, коммерческих решений, из которых 195 систематизированы и описаны. Решения разделены на 12 функциональных групп (кластеров), соответствующих технологическим интересам профильных организаций по мониторингу и обеспечению безопасности интернета. Среди них: обнаружение дипфейков, извлечение смысла из текста, поддержка фактчекинга, извлечение и анализ метаданных, генерация и рекомендация контента и др.

Ключевые выводы
1. Контекст
Искусственный интеллект (или ИИ) как явление позволяет нам переосмыслить процессы анализа и использования информации, прогнозирования и принятия решений, проникнув практически во все сферы нашей деятельности. Хранение и обработка огромного массива данных с высокой скоростью, сложные алгоритмы обработки информации любого рода, от визуального изображения, до неструктурированного цифрового потока, принятие решений без вмешательства человека — это наша действительность. В последнее десятилетие скорость развития ИИ стала экспоненциальной: то, что в середине 2010-х казалось рывком в разработке нейросетей, на самом деле было началом продолжительного развития технологии, которое не сбавляет скорости.
Но важнейшим маркером внимания к ИИ является то, что другие технологии начинают менять свой вектор развития под него: происходит разработка специализированных чипов, постройка отдельных центров обработки данных, автоматизация методов сборки датасетов — производство инструментов по созданию ИИ стало своим собственным рынком. Обыватели уже используют ИИ, встроенный в поисковые системы или мобильные приложения, не задаваясь вопросами. Это говорит о высокой степени коммерциализации и о том, что вскоре технология будет доступна широчайшему спектру людей, а входной порог для, например, обучения нейросети или ее модификации значительно снизится.
Подрывной потенциал технологии станет доступен в полной мере куда более широкому спектру людей, и несомненно среди этого спектра будут и злоумышленники, которые раньше не были способны грамотно применить ИИ в рамках своих целей и средств. У государства нет другого выбора, кроме как изучать эту технологию, обучать своих граждан и готовиться к грядущим изменениям в информационных войнах, киберпреступлениях, практиках недобросовестного использования персональных данных и других векторах рисков, которые значительно изменятся и обострятся по мере развития технологии. Остановить или замедлить это развитие невозможно.
Неминуемое развитие технологий создает необходимость прозрачного понимания возможностей ИИ как для представителей бизнеса, так и для государства, ведь использование ИИ напрямую затрагивает вопросы общечеловеческих ценностей, прав и свобод граждан, национальной безопасности. Сложности к пониманию вектора развития технологии для обычного обывателя добавляет частичная (иногда полная) секретность о разработках инструментов, с которыми человек взаимодействует уже сегодня, попутно подливая масла в огонь любителям конспирологических теорий. Однако как на самом деле обстоят дела с ИИ сегодня?
2. Принципы классификация и кластеры (функциональные группы)
Мы сформулировали два ключевых параметра для классификации прикладных решений:
-
Первым параметром стала принадлежность решения к одному из 4 сформированных направлений ИИ. Каждая из субтехнологий представляет собой широкую предметную область, характеризующуюся форматом информации, с которым работает то или иное решение: компьютерное зрение, обработка естественного языка, распознавание и синтез речи, системы прогнозирования и поддержки принятия решений. Следует отметить, что кроме разницы в векторе применения, субтехнологии значительно отличаются и с технической стороны.
-
Вторым параметром стала степень зрелости, отражающая разные стадии развития решений. Данная градация была сформирована на основе отчетов консалтинговых компаний и обзоров научной литературы, задачей которых было измерение степени развития той или иной технологии. Было выделено три уровня зрелости решения: «концепция», «прототип» и «внедрено».
-
Решения на этапе «концепция» представляют собой экспериментальные системы, концепции систем и гипотетически возможные системы на ранних стадиях разработки, не прошедшие пилотных стадий или тестирование в реальных условиях или условиях, близких к реальным. Для доведения таких решений до готовности к внедрению потребуется значительный объем работ.
-
Решения на этапе «прототип» включают в себя экспериментальные системы, которые успешно прошли или проходят первые этапы тестирования в реальных условиях или условиях, близких к реальным, ими можно пользоваться и внедрять их в процессы после предварительной модификации.
-
Решения на этапе «внедрено» являются решениями, которые уже работают в реальных условиях, используются частными компаниями, НКО, государственными организациями, обывателями и иными заинтересованными группами. Такие решения уже занимают свою нишу на рынке и готовы к внедрению.
Следующим шагом мы распределили решения на 12 функциональных групп (названных нами в исследовании кластерами), соответствующих технологическим интересам профильных организаций по мониторингу и обеспечению безопасности интернета. Каждый кластер объединяет решения, предназначенные для выполнения задач в конкретном направлении.
Так были выделены кластеры:
- Обнаружение дипфейков
- Определение контекста происходящего на видео
- Автоматизация мониторинга и модерации контента
- Распознавание лиц
- Извлечение смысла из текста
- Поддержка фактчекинга
- Распознавание символики
- Извлечение и анализ метаданных
- Распознавание эмоций
- Поддержка решений при информационных атаках
- Генерация контента
- Рекомендация контента
Кластеры были сформированы на основе предварительного анализа релевантной научной литературы, в ходе обсуждения с экспертами. Одним из результатов исследования стала обзорная карта технологий, демонстрирующая нынешний ландшафт разработки решений на основе ИИ в разрезе кластеров, субтехнологий и степени зрелости этих решений.
3. Универсальные положения, релевантные всем кластерам решений
-
В России есть экспертиза для создания отечественных датасетов и моделей, но не хватает вычислительных мощностей, инфраструктуры и кооперации между ключевыми стейкхолдерами. Ситуация осложняется тем, что в России на данный момент недостаточно развито производство высококачественного, мощного вычислительного оборудования. Несмотря на это, в России есть крайне качественные решения, особенно это касается распознавания лиц и работы с информационными атаками.
-
Китай и США лидируют с большим отрывом в существенной части кластеров. Несмотря на то, что эти страны имеют значительные различия как в направлении исследований и разработок, так и в тактическом подходе, в обеих странах развито сотрудничество государственных организаций с коммерческими.
-
Из-за автоматизации информационных войн и развития генеративных моделей будет крайне проблематично обеспечить когнитивную безопасность населения без внедрения искусственного интеллекта.
-
Наличие отечественных моделей и их внедрение, а также использование отечественных датасетов — вопрос национальной безопасности, так как зарубежные акторы способны экспортировать искусственный интеллект, который будет им подконтролен после передачи клиенту.
-
Разработка процедур тестирования и оценки моделей — важная инфраструктурная задача, которая позволит государству держать руку на пульсе развития технологий, отслеживать перспективных разработчиков и проекты.
-
Существенная доля моделей представляет собой «черный ящик» — из-за огромного объема параметров крайне сложно определить, как именно эти модели принимают свои решения. Это представляет угрозу в случае внедрения зарубежных моделей, использования зарубежными датасетами и разработки некачественных моделей.
-
Регуляторика в большинстве стран не успевает за скоростью развития технологий. Это относится к большой доле кластеров, начиная с генеративных алгоритмов, регуляция которых все еще не достигла должной детализации, и заканчивая самими датасетами, подход к наполнению и использованию которых во многих странах остается на совести самих разработчиков.
-
Искусственный интеллект значительно обогнал человека в объеме и скорости обработки данных, способности распознавать малозаметные паттерны и сравнивать образцы с большими объемами информации. На данный момент искусственный интеллект все еще далек от реального понимания контекста и культурных нюансов, чем нередко пользуются злоумышленники.
Как проводилось исследование?
Анализ 3 тысяч решений
Решения (концепции, изобретения, прототипы, коммерческие решения) разделены на 12 функциональных групп (кластеров), соответствующих технологическим интересам профильных организаций по мониторингу и обеспечению безопасности интернета.
Передовые аналитические инструменты
В ходе поиска решений был использован ряд аналитических инструментов, в частности система Teqviser. База данных системы содержит свыше 60 миллионов научных публикаций, не менее 30 миллионов патентов и около 600 тысяч примеров инвестиционных проектов.
Экспертные интервью
Анализ релевантных вызовов в ккаждой из функциональных групп, а также оценка текущего состояния и перспектив российских решений.