В ЛЭТИ обучили нейросеть на основе «песен» кашалотов генерировать звуки, перспективные для систем подводной связи
Разработанный инструмент поможет в исследовании поведения этих крупных морских млекопитающих, а также в создании новых методов связи, основанных на акустических сигналах.
Для создания более эффективных систем подводной связи и навигации, а также гидролокаторов (средств звукового обнаружения подводных объектов с помощью акустического излучения), необходимо изучать то, как морские млекопитающие излучают звуковые волны и интерпретируют отраженные сигналы. Понимание того, как шумы, создаваемые этими морскими обитателями, влияют на передачу звука, может помочь в создании способов, которые минимизируют влияние помех на подводные коммуникации.
Кроме того, исследование голосовых сигналов, например, издаваемых кашалотами, помогают морским биологам классифицировать отдельные типы по их диалогу. Это делается для того, чтобы распознать, кто из них исполняет те или иные «песни». Например, многие ученые считают, что кашалоты используют щелчки, трески и стоны с целью общения, эхолокации и ориентации в пространстве.
Однако некоторые из существующих на сегодня баз данных являются закрытыми, а для изучения кашалотов и издаваемых ими звуков необходимо большое количество записей их «голоса». По этой причине ученые занимаются созданием методов, которые позволят создавать достаточно похожие по характеристикам звуки морских млекопитающих с использованием уже имеющихся данных.
«Нами разработан метод генерации синтетических звуков, а именно щелчков кашалотов с помощью нейросети. Для этого «песни» этих млекопитающих животных мы преобразовали в картинки, представив их в виде спектрограммы, а затем с помощью специального алгоритма машинного обучения для генерации изображений сгенерировали новые наборы звуков. Полученные данные представляют интерес не только для морской биологии, но и поможет усовершенствовать, например, методы подводной связи на основе акустических сигналов».
Исследователи получили щелчки определенного кашалота из базы данных звуков морских млекопитающих, находящейся в открытом доступе. Затем они занимались обработкой и искажением сигналов без влияния на исходные материалы – меняли тембр, тон, добавляли случайный шум, ускоряли и замедляли звук.
Преобразовав голосовые данные в спектрограммы (фотографические изображения спектров), они вертикально и горизонтально «нарезали» эти картинки по частям и переставляли их местами. Это позволило получить новые наборы звуков без преобразования их структуры. После этого они усовершенствовали готовую архитектуру таким образом, чтобы она могла генерировать звуки с частотой свыше 20 кГц.
«Усовершенствованную модель мы обучили самостоятельно выполнять все нужные шаги для получения новых наборов данных и также их классифицировать. Результатом стала нейросеть, которая может работать с высокочастотными сигналами и выдавать очень похожие щелчки определенного кашалота – с 10-12% отклонением от метрик. В перспективе данный метод можно использовать для генерации звуков любого животного, например, птиц. Для этого необходимо будет настроить алгоритм на обработку их голосовых данных».
Результаты исследований по генерации синтетических голосовых данных с использованием StyleGAN2-ADA представлены в научном журнале Big data and cognitive computing. Работа поддержана Российским научным фондом (проект № 23-71-01084).