Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик.

В последние годы было проведено немало исследований c целью разработки методов автоматической идентификации цифровых аудиозаписей вообще и музыкальных произведений в частности. Наиболее известные проекты в этой области — Musical Genome Project американской компании Pandora Media, MusicID компании Gracenote, а также AudioRadar и SIMAC (Semantic Interaction with Music Audio Contents).

При всем многообразии существующих решений можно выделить два принципиально разных подхода, используемых для анализа и поиска музыкальных записей. Один из них заключается в определении ряда музыкальных параметров, таких как темп, характерные ритмические рисунки, гармонические и мелодические конструкции. Результатом автоматического анализа музыкальных произведений является набор метаданных, содержащий описание ключевых параметров каждого файла. Оперируя этими метаданными, можно выполнять сортировку и поиск содержимого цифровой фонотеки в автоматическом режиме.

Другой подход заключается в создании так называемого цифрового отпечатка (waveform fingerprint), позволяющего идентифицировать звуковую запись исключительно по акустическим параметрам. В качестве примера реализации подобного метода можно привести технологию MusicID, разработанную сотрудниками компании Gracenote.

TrackID, который позволяет определить название музыкального произведения и имя исполнителя по небольшому отрывку записи.

Но что делать, если в вашем распоряжении нет мобильного устройства. Один из вариантов — воспользоваться бесплатным сервисом AudioTag, который позволяет идентифицировать музыкальные произведения по фрагментам их записей. Обнаружив на просторах Всемирной сети этот интересный ресурс, мы решили всесторонне изучить его возможности.

Сервис AudioTag: взгляд пользователя

Согласно справочной информации, размещенной в одном из разделов этого сайта, для идентификации записей используется метод сопоставления «цифровых отпечатков». В базе данных сервиса хранятся «цифровые отпечатки» более миллиона различных произведений. Загруженный пользователем звуковой файл подвергается анализу с целью получения его «звукового отпечатка» (Рис.5). Затем этот отпечаток сравнивается с образцами, хранящимися в базе данных сервиса (где на данный момент собраны «цифровые отпечатки» уже более миллиона музыкальных произведений различных жанров, записанных в разное время). В большинстве случаев удается найти одну или несколько записей, схожих с загруженным файлом. Как уверяют создатели сервиса, вероятность получения ошибочного результата очень мала: система с гораздо большей вероятностью вообще не распознает запись, нежели выдаст неверные данные. Хотя, конечно, 100-процентной гарантии от ошибок нет.

Рис. 5 Окно загрузки звукового фрагмента

Еще одна важная особенность используемого алгоритма идентификации заключается в том, что он учитывает исключительно акус-тические особенности записи, не принимая в расчет ее музыкальные свойства — тональность, гармонию, мелодию и пр. Как следствие, система способна идентифицировать именно ту запись, фрагмент которой был загружен пользователем, но не позволяет найти то же самое произведение (или мелодию) в другой аранжировке или в исполнении другого музыканта (или состава). Мы убедились в этом на примере такого известного произведения, как «Времена года» Антонио Вивальди. Для теста были записаны небольшие фрагменты части Presto из концерта № 2 («Лето») в исполнении разных оркестров. Сервис смог безошибочно идентифицировать файл с записью этого произведения в исполнении Берлинского филармонического оркестра под управлением Герберта фон Караяна, сделанной в 1965 году. Однако при загрузке того же фрагмента в исполнении Словацкого камерного оркестра (запись 1995 года) на экране появилась надпись о невозможности распознать загруженный файл.

Сервис позволяет выбрать один из двух языков интерфейса: английский либо русский. Отрадно, что русификация затронула не только интерфейс, но и содержимое базы «звуковых отпечатков». В числе прочих в ней представлена информация о большом количестве произведений русских и советских композиторов и исполнителей. Например, сервис смог идентифицировать музыку из серии отечественных фильмов «Шерлок Холмс и доктор Ватсон», написанную композитором Владимиром Дашкевичем, а также «Прелюдию для Кэт» Микаэла Таривердиева, звучащую в популярнейшем советском телесериале «Семнадцать мгновений весны».

Пользоваться сервисом оказалось совсем несложно. Процедура идентификации выполняется в три действия. Первое — загрузка звукового отрывка. Это может быть звуковой файл или же ссылка на запись, размещенную на какомлибо интернет-ресурсе. Список поддерживаемых звуковых форматов весьма обширный: WAV (в том числе ADPCM и несжатые PCM), MP3, OGG Vorbis, FLAC, FLV, AMR и MP4. В окне браузера, открывающемся при нажатии кнопки Browse, можно быстро найти нужный файл на жестком диске или на одном из съемных носителей.

Второй шаг не имеет непосредственного отношения к процессу распознавания: на этом этапе придется доказать, что вы — живой человек, а не робот (Рис.6). На экран выводится картинка с несложным арифметическим выражением, результат которого необходимо вычислить и ввести в соответствующее поле.

Рис. 6 Желающему воспользоваться сервисом придется доказать, что он является человеком. Для этого необходимо решить несложное
арифметическое выражение

Если введенный результат оказался верным, то после непродолжительной паузы на экране появляется информация о музыкальном произведении, фрагмент которого содержался в загруженном файле. Или сообщение «извините, загруженный вами аудиофайл распознать не удалось» — в том случае, если система не смогла идентифицировать запись.

Нередко в окне результатов поиска отображается несколько вариантов, для каждого из которых указывается степень соответствия загруженному фрагменту. Наиболее часто подобная ситуация возникает в том случае, когда одна и та же запись входила в разные альбомы (включая всевозможные сборники, антологии и пр.). Гораздо реже в список возможных вариантов попадают совершенно разные произведения. Такой результат можно объяснить использованием музыкальных цитат из произведений других исполнителей.

Чтобы успешно идентифицировать запись, необязательно загружать неизвестное произведение целиком. Создатели сервиса рекомендуют использовать отрывки продолжительностью от 15 до 45 секунд — этого вполне достаточно для получения «цифрового отпечатка». Правда, есть важный нюанс: загружаемый фрагмент должен отражать наиболее характерные особенности данного произведения — в противном случае вероятность его идентификации снижается.

Интересно отметить, что наличие в фонограмме посторонних шумов (которые неизбежно «украшают» записи, сделанные на встроенный микрофон портативных устройств), а также высокая степень компрессии звукового сигнала практически не влияют на точность распознавания. Из дюжины фрагментов композиций различных жанров, записанных на встроенный микрофон портативного медиаплеера, AudioTag не сумел идентифицировать лишь одну. И это при том, что звучание оригиналов было сильно искажено встроенным микрофоном, а фрагменты записи сохранены в формате МР3 с битрейтом всего 64 Кбит/с!

Чтобы проверить тезис о стойкости используемого алгоритма к артефактам цифровой компрессии, мы заготовили десяток фрагментов разных произведений. Каждый из них был представлен в двух вариантах — несжатом WAV (44,1 кГц/16 бит) и MP3 с битрейтом 160 Кбит/с. Сначала идентификации были подвергнуты записи в формате MP3, и восемь из десяти были распознаны. Затем мы предприняли попытку идентифицировать два неопознанных в первом туре фрагмента, загрузив их версии в формате WAV. Однако это ничуть не повлияло на результаты поиска: судя по всему, информация об этих произведениях просто отсутствует в базе AudioTag.

Как выяснилось, не влияют на точность распознавания и артефакты аналоговой грамзаписи (щелчки, низкочастотный гул и пр.). С идентификацией фрагментов нескольких произведений, оцифрованных с грампластинок, AudioTag справился без проблем.

Слабое место алгоритма идентификации удалось нащупать совершенно случайно. Камнем преткновения для цифрового алгоритма стали записи со старых компакткассет. Разумеется, речь идет не о тех рафинированных фонограммах, которые были записаны на кассету непосредственно с проигрывателя компактдисков. Для эксперимента были оцифрованы фрагменты с подлинных образцов коллекции, собранной еще в доцифровую эпоху.

При попытке идентифицировать несколько песен известных исполнителей выяснилось, что шум магнитной ленты и наслоения аналоговых помех от нескольких перезаписей существенно снижают вероятность распознавания. Из десятка фрагментов AudioTag сумел идентифицировать только три — и это при том, что все записи были оцифрованы с параметрами AudioCD и не подвергались сжатию. А в том, что информация обо всех искомых произведениях наличествует в базе данных AudioTag, мы убедились, загрузив фрагменты незашумленных цифровых записей — все они были успешно распознаны.

Основные характеристики звука

Скорость звука в воздухе равняется 332,5 м/с при 0°С. При комнатной температуре (20°С) скорость звука составляет около 340 м/с. Скорость звука обозначается символом «с ».

Частота. Звуки, воспринимаемые слуховым анализатором человека, образуют диапазон звуковых частот. Принято считать, что этот диапазон ограничен частотами от 16 до 20000 Гц. Эти границы весьма условны, что связано с индивидуальными особенностями слуха, возрастными изменениями чувствительности слухового анализатора (с возрастом верхняя граница слышимых частот падает до 14–16 кГц) и т.д. Это довольно широкий диапазон, перекрывающий три декады (диапазон частот с отношением максимальной частоты к минимальной равным 10). Из музыки к нам пришла и другая мера измерения диапазона частот звуковых колебаний – октава (отношение крайних частот диапазона равное 2).

Физическое понятие звука охватывает как слышимые, так и неслышимые частоты колебаний. Звуковые волны с частотой ниже 16 Гц условно называют инфразвуковыми, выше 20 кГц – ультразвуковыми. Инфразвуковые и ультразвуковые колебания ощущения звука у человека не вызывают.

Область инфразвуковых колебаний снизу практически не ограничена – в природе встречаются инфразвуковые колебания с частотой в десятые и сотые доли Гц. Частоты порядка 20 Гц и ниже мы не столько слышим ухом, сколько воспринимаем телом и даже нашими внутренними органами. Однако когда такие частоты приближаются к частотам колебаний внутренних органов человека, они способны вызвать тревогу, чувство страха, эйфорию, а при достаточной силе звука привести даже к смертельному исходу. Заметим, что при этом человек не слышит эти звуки и не отдает себе отчет о причинах возникновения этих чувств.

Существует достаточно обоснованное мнение, что и ультразвуковые колебания все же влияют на ощущения человека при прослушивании музыкальных произведений, поскольку оказывают заметное влияние на форму звуковых волн, поэтому наиболее совершенные акустические системы способны воспроизводить ультразвуковые колебания с частотами до 35–50 кГц, а иногда и выше.

Интенсивность звука (Вт/м²) определяется количеством энергии, переносимой волной за единицу времени через единицу площади поверхности, перпендикулярной к направлению распространения волны. Ухо человека воспринимает звук в весьма широком интервале интенсивности: от самых слабых слышимых звуков до самых громких, например создаваемых двигателем реактивного самолета.

Минимальная интенсивность звука, при которой возникает слуховое ощущение, называется порогом слухового восприятия. Он зависит от частоты звука (рис. 7). Наибольшей чувствительностью к звуку человеческое ухо обладает в диапазоне частот от 1 до 4 кГц, соответственно и порог слухового восприятия здесь имеет наименьшее значение 10^–12Вт/м². Эта величина принята за нулевой уровень слышимости. При действии шумов и других звуковых раздражений порог слышимости для данного звука повышается (маскировка звука – физиологический феномен, заключающийся в том, что при одновременном восприятии двух или нескольких звуков разной громкости более тихие звуки перестают быть слышимыми), причем повышенное значение сохраняется некоторое время после прекращения действия отвлекающего фактора, а затем постепенно возвращается к исходному уровню. Порог слышимости может изменяться в зависимости от возраста, физиологического состояния, тренированности слушателя.

Звуки высокой интенсивности вызывают ощущение давящей боли в ушах. Минимальная интенсивность звука, при которой возникает ощущение давящей боли в ушах, называется порогом болевого ощущения. Так же, как и порог слухового восприятия, порог болевого ощущения зависит от частоты звуковых колебаний (рис. 7). Звуки, интенсивность которых приближается к болевому порогу, оказывают вредное воздействие на слух.

Слуховой анализатор человека способен к восприятию огромного динамического диапазона. Изменения в давлении воздуха, вызываемые самыми тихими из воспринимаемых на слух звуков, составляют порядка 2×10^–5 Па. В то же время звуковое давление с уровнем, приближающимся к порогу болевых ощущений для наших ушей, составляет порядка 20 Па. В итоге динамический диапазон (соотношение между самыми тихими и самыми громкими звуками, которые может воспринимать наш слуховой аппарат) – 1:1000000.

С целью сжатия такого широкого динамического диапазона было введено понятие «бел». Бел – это простой логарифм отношения двух степеней, а децибел равен 0,1 бела.

Чтобы выразить акустическое давление в децибелах, необходимо возвести давление (в паскалях) в квадрат и разделить его на квадрат эталонного давления. Для удобства возведение в квадрат двух давлений выполняется вне логарифма (свойство логарифмов).

Для преобразования акустического давления в децибелы применяется формула:

где P – интересующее нас акустическое давление, P ₀ – исходное давление.

Оценку звука удобно проводить по уровню (L) интенсивности (звукового давления), рассчитываемому по формуле:

где J ₀ – порог слухового восприятия, J – интенсивность звука.

Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик.

Поиск по сайту