Это свободный, непрофессиональный перевод статьи, оригинал которой расположен на сайте Xiph.org и датирован 1 марта 2012 г.
1. Физиология слуха
2. Ультразвук вреден
3. Семплирование, разрядность, динамический диапазон
4. Слуховые тесты
5. Как действительно улучшить звучание
Заблуждения насчет семплирования
Теорему отсчетов (Котельникова / Найквиста — Шеннона) далеко не просто понять, не имея представления об обработке сигналов. Совсем не удивительно, что большинство людей, даже доктора наук, довольно часто имеют о ней ошибочное представление. Также не новость, что многие люди и представить себе не могут, что ошибаются.
Квантованный сигнал довольно часто представляется в виде ступенек (изображены красным), которые с виду весьма далеки от исходной формы сигнала. Однако, на самом деле, цифровое представление такого сигнала является математически совершенным и после восстановления обратно в аналоговый вид мы получим такую же гладкую синусоиду, какая была на входе (исходный сигнал изображен голубым цветом).
Самое распространенное заблуждение: квантование является заведомо грубым приближением с потерями. Квантованный сигнал часто представляется в виде угловатых ступенек — в противоположность исходной, совершенно гладкой кривой. Если вы представляете себе семплирование именно так, скорее всего вы также убеждены, что чем больше частота семплирования (и разрядность квантования), тем более цифровой ступенчатый сигнал будет совпадать по форме с исходным. Цифровой сигнал будет звучать всё ближе и ближе к аналоговому по мере того, как частота семплирования будет стремиться к бесконечности.
Также, если человеку далекому от DSP технологий (digital sound processing) показать следующее:
он воскликнет: «Ох!». Похоже, что цифровой сигнал плохо годится для представления сигналов с высокой частотой. Или по мере увеличения частоты качество семплирования стремительно падает, а частотная характеристика спадает или становится чувствительной к фазе.
Внешность обманчива. Эти утверждения ошибочны!
Добавлено 2013-04-04:
В качестве ответа на многочисленные письма, касающиеся цифровых сигналов и ступенек, я организовал специальную демонстрацию работы реального цифрового оборудования в видео Digital Show & Tell, которая и является в данном случае подтверждением моих слов.
Сигналы, все частотные составляющие которых находятся ниже частоты Найквиста (половина частоты дискретизации), преобразовываются в цифровой вид с абсолютной точностью; бесконечная частота семплирования не нужна. Также квантование совершенно не влияет на АЧХ и ФЧХ. Аналоговый сигнал может быть без потерь восстановлен, причем будет иметь гладкую форму и в точности совпадать по фазе с исходным сигналом.
Что ж, матчасть безупречна, но как насчет неидеальности мира? Наибольшей сложностью является удовлетворение требованиям ограниченности частотной полосы. Сигналы с составляющими выше частоты Найквиста должны предварительно пройти через НЧ фильтр, дабы предотвратить шумы отражения (алиазинг); этот аналоговый ФНЧ — печально известный анти-алиазинговый фильтр. На практике антиалиазинг не может быть совершенным, но современные технологии максимально приблизили его к идеалу. ...а мы тем временем переходим к оверсемплингу.
Оверсемплинг
Семплирование на частотах более 48 кГц не является необходимостью для хранения высококачественных аудиоданных, но в то же время высокая частота семплирования лежит в основе принципа работы некоторых технологий цифрового звука. Наиболее значимой из них является оверсемплинг.
Оверсемплинг — технология крайне простая, но эффективная. Вы можете помнить из видео A Digital Media Primer For Geeks, что высокие частоты семплирования обеспечивают гораздо больший промежуток между желаемой граничной частотой сигнала и частотой Найквиста. Это позволяет использовать более простые, гладкие, легко реализуемые аналоговые анти-алиазинговые фильтры, а следовательно, позволяет получить более высокое качество. Этот дополнительный промежуток между 20 кГц и частотой Найквиста фактически является спектральным зазором аналогового фильтра.
Графики из вышеупомянутого видео, иллюстрирующие доступную ширину спада АЧХ для 48- и 96-килогерцовых АЦП/ЦАП соответственно.
И это только начало. Поскольку цифровые фильтры имеют гораздо меньше ограничений, чем аналоговые, мы можем произвести анти-алиазинг более точно и эффективно в цифровом виде. Аудиоданные с очень высокой частотой семплирования проходят через цифровой анти-алиазинговый фильтр, который без каких-либо проблем жестко ограничивает полосу частот до заданного значения, после чего дополнительные семплы (кодировавшие сверхвысокие частоты) просто отбрасываются. Воспроизведение с оверсемплингом работает примерно таким же образом, но в обратной последовательности.
Это означает, что мы можем использовать невысокие частоты — 44.1 или 48 кГц — и при этом пользоваться всеми преимуществами семплирования с частотой 192 кГц и выше (ровная АЧХ, отсутствие алиазинга), без каких-либо побочных эффектов (вроде ультразвуковых модуляций, лишних затрат места на жестком диске). Практически все АЦП и ЦАП сегодня используют оверсемплинг с очень высокой частотой. Мало кто знает об этом, так как обработка производится независимо от пользователя и полностью автоматизирована.
АЦП и ЦАП производили оверсемплинг не всегда. Тридцать лет назад некоторые записывающие устройства использовали только аналоговые фильтры в сочетании с высокими частотами, и такую же частоту приходилось использовать при сведении/мастеринге. Цифровой анти-алиазинг и децимация (понижение частоты дискретизации для записи на CD или DAT) выполнялся на финальной стадии мастеринга. Это было одной из причин, почему форматы 96 кГц и 192 кГц стали ассоциироваться с профессиональной звукозаписью.
16 бит против 24 бит
Хорошо, значит, в 192 кГц для музыки смысла нет, разобрались. А что насчет 16- и 24-битного аудио?
Это правда, что 16-битная ИКМ (импульсно-кодовая модуляция) не полностью покрывает весь динамический диапазон, теоретически доступный человеческому слуху в идеальных условиях. Кроме того, существуют (и всегда будут существовать) причины, по которым лучше использовать более 16 бит при записи и обработке музыки.
Но ни одна из этих причин не относится к воспроизведению; здесь 24 бита также бесполезны, как и частота 192 кГц. Хорошая новость заключается в том, что 24-битный формат отрицательно повлиять на качество не может. Просто в нем нет нужды, но при этом он расходует лишнее дисковое пространство.
И снова ваши уши
Выше мы обсудили частотный диапазон человеческого слуха, что же насчет динамического диапазона, т.е. разницы между самым тихим слышимым сигналом и самым громким?
Как вариант, для определение максимального динамического диапазона наших ушей, можно воспользоваться теми же кривыми порога слышимости и болевого порога. Промежуток между самой верхней точкой болевого порога и самой нижней точкой порога слышимости составляет 140 децибел (для молодого, здорового человека). Хотя это справедливо лишь для коротких промежутков времени — 130 дБ достаточно чтобы нанести необратимый ущерб слуху менее чем за минуту. Для справки: отбойный молоток на расстоянии одного метра создает звуковое давление лишь в 100-110 дБ.
Порог слышимости повышается по мере старения и ухудшения слуха. Что интересно: болевой порог, напротив, с возрастом уменьшается. Волосковые клетки улитки сами по себе обеспечивают лишь часть вышеупомянутого динамического диапазона в 140 дБ; в ухе имеются специальные мышцы, постоянно регулирующие поток воздуха, достигающий улитки, путем сдвига специальных косточек — подобно радужной оболочке, регулирующей количество света, поступающего внутрь глаза. Этот механизм с возрастом изнашивается, динамический диапазон слуха сужается, а эффективность защитных механизмов уменьшается.
Окружающие шумы
Мало кто знает, на каком низком уровне в действительности находится порог слышимости.
Самый тихий слышимый звук соответствует звуковому давлению около -8 dBSPL. При использовании весового фильтра типа А гул от 100-ваттной лампы накаливания на расстоянии одного метра составляет 10 dBSPL, т.е. на 18 дБ громче. Лампа с диммером будет гудеть еще громче.
Значение 20 dBSPL (на 28 дБ громче порога слышимости) обычно соответствует пустой звукозаписывающей студии или же звукоизолированной комнате. Именно поэтому вы скорей всего никогда не слышали гудение лампочки.
Динамический диапазон 16 бит
16-битная линейная импульсно-кодовая модуляция (LPCM), в соответствии с наиболее распространенным способом подсчета (ДД=6*[количество бит]), обеспечивает динамический диапазон в 96 дБ. Многие думают, что 16-битный формат не способен описать произвольный сигнал с уровне ниже -96 dBFS. Это не так.
Ниже я привожу ссылки на два 16-битных аудиофайла: один содержит тон с частотой 1 кГц и уровнем 0 dBFS (максимальный уровень), а другой 1 кГц тон с уровнем -105 dBFS.
- Sample 1: 1kHz tone at 0 dB (16 bit / 48kHz WAV)
- Sample 2: 1kHz tone at -105 dB (16 bit / 48kHz WAV)
Спектральная диаграмма тона с уровнем -105 дБ, закодированного в формате ИКМ 16 бит/48 кГц. 16 бит обеспечивают диапазон куда больше, чем 96 дБ, иначе тон с уровнем -105 дБ был бы невиден и неслышен.
Каким же образом можно закодировать подобный сигнал, причем с уровнем намного выше шумового порога, в то время как его его амплитуда составляет 1/3 бита?
Отчасти это достигается с помощью дизеринга, который оказывает влияние на шум квантования и не влияет на полезный сигнал. Фактически это означает, что квантование с дизерингом не вносит искажений, лишь случайный (некоррелированный) шум. Таким образом мы можем кодировать сигналы произвольного уровня, даже с пиковой амплитудой намного меньше одного бита. Однако, дизеринг не отменяет принципа, согласно которому сигнал исчезает, как только опускается ниже уровня шума. Как же так, что сигнал -105 dBFS слышен при шумовой полке -96 dBFS?
Ответ: наше представление о шумовой полке в -96 dBFS неверно: мы используем неподходящий метод описания динамического диапазона. Коэффициент 6, умноженный на количество бит, даёт нам среднеквадратичное (т.н. «действующее») значение уровня шумов, с учетом всего диапазона частот, но, то же время, отдельные волосковые клетки в наших ушах воспринимают лишь узкую полосу частотного диапазона, т.е. на них перепадает лишь часть полной мощности фонового шума. Это значит, что шумовой порог для отдельно взятой волосковой клетки будет значительно ниже, чем суммарное значение для всей полосы частот (-96 dBFS).
Таким образом 16-битное аудио обеспечивает диапазон куда больше 96 дБ. В случае использования дизеринга в сочетании с формовкой шума, обеспечивающей смещение спектра шума в в диапазон частот, к которым ухо менее чувствительно, эффективный динамический диапазон 16 бит фактически достигает 120 дБ — это более, чем в 15 раз превышает заявленные 96 дБ.
120 дБ — это больше, чем разница между писком комара, летающего где-то по комнате, и звуком отбойного молотка, находящегося от вас в двух шагах... или разница между уровнем звукового давления в пустой звукоизоляционной камере и звуком, по громкости достаточным, чтобы повредить ваш слух за какие-то секунды.
16 бит вполне достаточно (и будет достаточно всегда), чтобы закодировать абсолютно любой воспринимаемый человеческим ухом звук.
Соотношение сигнал/шум
Стоит вкратце упомянуть, что соотношение сигнал/шум для ушей меньше, чем их абсолютный динамический диапазон. В заданной узкой полосе типичное значение составляет всего лишь ~30 дБ. Относительное значение сигнал/шум не достигает полного динамического диапазона, даже если рассматривать широкую полосу частот. Это гарантирует, что 16-битная ИКМ обеспечивает даже большее разрешение, чем это необходимо.
Примечание переводчика: под динамическим диапазоном подразумевается разница между самым громким и самым тихим воспринимаемым звуком. Соотношение же сигнал/шум характеризует разницу между воспринимаемым сигналом и сопутствующим ему шумом. Таким образом, по видимому, орган слуха в процессе восприятия вносит свои шумы, которые по уровню находятся примерно на 30 дБ ниже воспринимаемого сигнала.
Также надо сказать, что увеличение разрядности аудио с 16 до 24 бит никоим образом не влияет на «прозрачность» его звучания. Это лишь увеличит динамический диапазон, т.е. разницу между самым тихим и самым громким звуком, за счет снижения шумовой полки. Причем шумовая полка 16 бит — уже за пределами возможностей нашего слуха.
Когда 24 бита имеют смысл?
Профессионалы используют 24-битные семплы в процессе записи и обработки, руководствуясь целями улучшения динамики, занижения шумовой полки, а также просто из-за удобства.
16 бит достаточно, чтобы охватить реальный слышимый диапазон, и в то же время сэкономить. Но их оказывается недостаточно, чтобы покрыть диапазон доступный для звукового оборудования. Основной целью использования 24-х бит в процессе записи является предотвращение ошибок. В то время, как, используя 16-битный формат, вы рискуете получить клиппинг при слишком высоком уровне записи и высокий уровень шумов при низком, 24 бита позволяют установить лишь примерный, заведомо достаточно низкий для предотвращения клиппинга уровень, особо не беспокоясь при этом о шумах. Потеря нескольких бит в случае установки неоптимального уровня записи не играет никакой, и в итоге уровень шумов будет всё еще достаточно низким, чтобы эффектам динамической компрессии было где разгуляться.
Кроме того, более высокое разрешение (более 16 бит) необходимо в процессе микширования (сведения) и мастеринга. Сегодня музыкальные работы могут включать в себя тысячи эффектов и обработок. Шумы квантования 16-битного сигнала могут быть не слышны в процессе воспроизведения, однако если их тысячу раз перемножить, в конце концов они станут заметны. 24 бита позволяют сохранять накопившийся суммарный шум на очень низком уровне. Как только музыкальный материал готов к распространению, нет никаких причин оставлять его в разрешении превышающем 16 бит.
1. Физиология слуха
2. Ультразвук вреден
3. Семплирование, разрядность, динамический диапазон
4. Слуховые тесты
5. Как действительно улучшить звучание
Информация от спонсора
1-MECTO.RU: поисковая оптимизация (SEO) веб-ресурсов, продвижение сайтов на 1 место в поисковых системах Google и Яндекс. Продвижение включает в себя все основные этапы — дизайн, верстку/программирование, наполнение уникальным контентом и т.д.