Clear Sky Science · ru

Инновационная структура для безопасной передачи данных с использованием классификации на основе машинного обучения и шифрования Эль-Гамаля с простыми числами Рамануджана

2026-02-26 · Назад к списку

Почему важно защищать повседневные сообщения

Каждый день банки, больницы и государственные учреждения отправляют короткие цифровые сообщения — от обычных новостных уведомлений до крайне конфиденциальных обновлений по счетам. Обрабатывать все такие сообщения как одинаково секретные тратит вычислительные ресурсы попусту, но излишняя небрежность может привести к мошенничеству и нарушениям приватности. В этой работе рассматривается способ автоматически сортировать сообщения по уровню их чувствительности и защищать их соответствующими уровнями шифрования, стремясь найти баланс между безопасностью, скоростью и затратами ресурсов.

Отделение безобидных заметок от критических оповещений

Для начала авторы создают простую систему классификации текста, которая отделяет обычные сообщения, например общие новостные заголовки, от крайне чувствительных, таких как банковские уведомления и оповещения о транзакциях. Они формируют небольшой набор данных из 200 коротких, тщательно составленных предложений, половина из которых финансовые, половина — общие новости, и очищают текст, удаляя пунктуацию, цифры и распространённые стоп-слова. Каждое сообщение преобразуется в числовой отпечаток с использованием стандартной техники, которая усиливает значение слов, частых в одном сообщении, но редких в целом. Испытаны несколько популярных методов машинного обучения, включая K-ближайших соседей, метод опорных векторов, линейный дискриминантный анализ и кластеризацию K-средних. С применением пятикратной кросс-валидации для избежания переобучения модель SVM демонстрирует наибольшую точность и стабильность, что делает её предпочтительным инструментом для решения, является ли сообщение рутинным или действительно чувствительным.

Два пути шифрования для двух типов данных

После маркировки сообщения направляются по одному из двух путей шифрования. Обычные чувствительные сообщения защищаются с помощью стандартной схемы публичного ключа Эль-Гамаля — хорошо известного метода, основанного на трудности математической задачи, называемой проблемой дискретного логарифма. Для крайне чувствительных сообщений используется модифицированный маршрут, идентичный по процессу шифрования и расшифровки, но отличающийся в выборе одного из ключевых секретных чисел — простого модуля. Здесь авторы экспериментируют со специальным семейством простых чисел, называемых простыми числами Рамануджана, которые обладают интересными свойствами распределения среди простых чисел. Важно, что авторы подчёркивают: такой выбор не делает базовую математику сложнее для взлома; скорее он предоставляет структурированный и новый способ генерации ключей, не меняя проверенные основы безопасности Эль-Гамаля.

Проверка целостности сообщений

Само по себе шифрование не гарантирует, что сообщение не было изменено в пути. Чтобы добавить такую защиту, в структуре каждому зашифрованному сообщению прикрепляется код аутентификации на основе хеша (HMAC) перед отправкой. Этот механизм использует общий секрет и необратимую хеш‑функцию для создания компактного тега, который изменится даже при однобитном изменении сообщения. На стороне получателя тот же секрет и хеш используются для повторного вычисления тега и сравнения его с отправленным; сообщение принимается как подлинное только если теги совпадают. Авторы реализуют все шаги — классификацию, генерацию ключей, шифрование, расшифровку и HMAC — в одной программе на Python и оценивают, сколько времени занимает каждая операция и какой объём данных можно обработать за единицу времени.

Что показывают результаты по времени выполнения

Тесты производительности сравнивают обработку обычных и крайне чувствительных сообщений, как с дополнительным HMAC, так и без него. Как и ожидалось, добавление аутентификации увеличивает время обработки для всех сообщений. Когда для крайне чувствительного маршрута используются простые числа Рамануджана, шифрование и расшифровка таких сообщений демонстрируют более низкую среднюю скорость передачи данных и пропускную способность по сравнению с обычным маршрутом, то есть система обрабатывает меньше килобайт в миллисекунду, и обработка каждого бита данных занимает больше времени. С практической точки зрения, структура намеренно тратит больше времени и вычислительных ресурсов на наиболее чувствительный трафик, в то время как менее критичные сообщения проходят быстрее. При этом авторы отмечают, что эта дополнительная нагрузка для критичных данных сопровождается снижением использования памяти на единицу данных, что может помочь удерживать требования к ресурсам в пределах на загруженных серверах.

Что означает эта работа для безопасной связи

Проще говоря, исследование показывает, что можно разработать систему безопасности, которая автоматически оценивает чувствительность сообщения, затем направляет его через соответствующий уровень защиты, сохраняя при этом основные гарантии безопасности проверенного метода шифрования. Применение простых чисел Рамануджана вносит математически новое решение в процесс выбора секретных ключей, не утверждая при этом усиления безопасности по сравнению со стандартным Эль-Гамалем. Хотя классификатор текста является лишь демонстрацией концепции на небольшом, тщательно собранном наборе данных, общая архитектура указывает на будущее, в котором повседневные сообщения, финансовые оповещения и медицинские уведомления можно обрабатывать по‑разному, но последовательно, экономя вычислительные ресурсы без ущерба для приватности и целостности информации, которая важна людям больше всего.

Цитирование: Haritha, N., Narayanan, V. & Srikanth, R. An innovative framework for secure data transmission using machine learning based classification and ElGamal encryption with Ramanujan primes. Sci Rep 16, 11090 (2026). https://doi.org/10.1038/s41598-026-40797-9

Ключевые слова: безопасная передача данных, классификация текста, шифрование с публичным ключом, простые числа Рамануджана, аутентификация HMAC