Исследователи из компании Google и Университета Осаки в Японии разработали систему, позволяющую воссоздавать прослушиваемую музыку по активности человеческого мозга. С подробностями – научный обозреватель Николай Гринько.
Достижения сегодняшней науки позволяют достаточно глубоко изучать работу человеческого мозга: ученые делают детальные 3D-снимки, фиксируют сигналы нейронов, определяют области, отвечающие, например, за кратковременную память или математические вычисления. На другом краю передовых исследований находятся нейросети, позволяющие получать информацию из самых разных массивов данных. И нет ничего удивительного в том, что технология теперь используется и в нейрофизиологии – искусственный интеллект изучает естественный.
Результаты такой работы действительно впечатляют. Поместив человека в аппарат МРТ и получая информацию, как работает его мозг, исследователи уже могут приблизительно "прочитать" текст, который в данный момент видит или слышит пациент. И даже восстановить картинки, которые ему показывают. Попытка воссоздать мелодию, которую слышит человек, стала естественным следующим шагом.
Исследователи подготовили 10 музыкальных фрагментов в разных жанрах и стилях – классика, металл, хип-хоп, поп, джаз и так далее. Пять добровольцев, по очереди помещавшихся в МРТ-сканер, прослушивали эти треки через наушники. Полученные записи их мозговой активности были загружены в нейросеть, которую обучили распознавать различные характеристики музыки – жанр, настроение, состав инструментов, наличие вокала и некоторые другие.
На первом этапе в исследование была включена нейросеть MusicLM – модель, разработанная Google, которая способна генерировать музыку на основе текстовых описаний. Интересно, что она может понимать и абстрактные понятия, например, "медленная, светлая композиция, создающая ощущение мира и безмятежности". Затем модель обучили распознавать не текст, а непосредственно томограммы, реконструируя трек по мозговой активности. Получившейся системе дали название Brain2Music, и она способна генерировать музыку, которая действительно похожа на мелодии, прослушиваемые пациентами. По крайней мере, она достаточно точно определяет жанр, настроение и даже способна различить вокал, разделяя его на мужской и женский.
Примеры работы Brain2Music исследователи выложили на специальный сайт, где каждый желающий может сравнить исходные семплы с реконструированными музыкальными фрагментами. Авторы работы пишут так: "Одним из примеров была песня Oops!.. I Did It Again Бритни Спирс. В сгенерированном фрагменте ряд музыкальных элементов, таких как звучание инструментов, темп и ритм, полностью совпадают, хотя текст песни получился неразборчивым".
На самом деле опознать исходник в реконструированных звуках практически невозможно – даже если точно знать, какую именно песню дали послушать добровольцу. Но стоит послушать несколько полученных фрагментов, и становится понятно, что нейросеть действительно неплохо справилась. Если пациент слышал классическую музыку, Brain2Music создавала трек, в котором отчетливо слышалось звучание симфонических инструментов. Получив на вход томограмму прослушивания рок-композиции, система выдавала энергичный фрагмент с перегруженными гитарами и быстрыми ударными. Воссоздавая песню 1960-х годов, нейросеть достаточно точно имитировала ее темп и манеру исполнения.
Одним словом, ученые сегодня способны примерно понимать, что слышит, видит и даже о чем думает человек. Пока это всего лишь предположительные образы, но уже достаточно близкие к реальности. Вероятно, через пару десятилетий искусственный интеллект научится в буквальном смысле слова читать мысли. И, откровенно говоря, это немного пугает.
Хотя…