Цифровой аудиоформат 24/192, и почему в нем нет смысла. Часть 2 [Перевод]
Сохранить и прочитать потом —
Прим. перев.: Это перевод второй (из четырех) частей развернутой статьи Кристофера «Монти» Монтгомери (создателя Ogg Free Software и Vorbis) о том, что, по его мнению, является одним из наиболее распространенных и глубоко укоренившихся заблуждений в мире меломанов.
Частота 192 кГц считается вредной
Музыкальные цифровые файлы с частотой 192 кГц не приносят никакой выгоды, но всё же оказывают кое-какое влияние. На практике оказывается, что их качество воспроизведения немного хуже, а во время воспроизведения возникают ультразвуковые волны.
И аудиопреобразователи, и усилители мощности подвержены влиянию искажений, а искажения, как правило, быстро нарастают на высоких и низких частотах. Если один и тот же динамик воспроизводит ультразвук наряду с частотами из слышимого диапазона, то любая нелинейная характеристика будет сдвигать часть ультразвукового диапазона в слышимый спектр в виде неупорядоченных неконтролируемых нелинейных искажений, охватывающих весь слышимый звуковой диапазон. Нелинейность в усилителе мощности приведет к такому же эффекту. Эти эффекты трудно заметить, но тесты подтвердили, что оба вида искажений можно расслышать.
График выше показывает искажения, полученные в результате интермодуляции звука частотой 30 кГц и 33 кГц в теоретическом усилителе с неизменным коэффициентом нелинейных искажений (КНИ) около 0.09%. Искажения видны на протяжении всего спектра, даже на меньших частотах.
Неслышимые ультразвуковые волны способствуют интермодуляционным искажениям в слышимом диапазоне (светло-синяя зона). Системы, не предназначенные для воспроизведения ультразвука, обычно имеют более высокие уровни искажений, около 20 кГц, дополнительно внося вклад в интермодуляцию. Расширение диапазона частот для включения в него ультразвука требует компромиссов, которые уменьшат шум и активность искажений в пределах слышимого спектра, но в любом случае ненужное воспроизведение ультразвуковой составляющей ухудшит качество воспроизведения.
Есть несколько способов избежать дополнительных искажений:
- Динамик, предназначенный только для воспроизведения ультразвука, усилитель и разделитель спектра сигнала, чтобы разделить и независимо воспроизводить ультразвук, который вы не можете слышать, чтобы он не влиял на другие звуки.
- Усилители и преобразователи, спроектированные для воспроизведения более широкого спектра частот так, чтобы ультразвук не вызывал слышимых нелинейных искажений. Из-за дополнительных затрат и сложности исполнения, дополнительный частотный диапазон будет уменьшать качество воспроизведения в слышимой части спектра.
- Качественно спроектированные динамики и усилители, которые совсем не воспроизводят ультразвук.
- Для начала можно не кодировать такой широкий диапазон частот. Вы не можете (и не должны) слышать ультразвуковые нелинейные искажения в слышимой полосе частот, если в ней нет ультразвуковой составляющей.
Все эти способы нацелены на решение одной проблемы, но только 4 способ имеет какой-то смысл.
Если вам интересны возможности вашей собственной системы, то нижеследующие сэмплы содержат: звук частотой 30 кГц и 33 кГц в формате 24/96 WAV, более длинную версию в формате FLAC, несколько мелодий и нарезку обычных песен с частотой, приведенной к 24 кГц так, что они полностью попадают в ультразвуковой диапазон от 24 кГц до 46 кГц.
Тесты для измерения нелинейных искажений:
- Звук 30 кГц + звук 33 кГц (24 бит / 96 кГц) [5-секундный WAV] [30-секундный FLAC]
- Мелодии 26 кГц – 48 кГц (24 бит / 96 кГц) [10-секундный WAV]
- Мелодии 26 кГц – 96 кГц (24 бит / 192 кГц) [10-секундный WAV]
- Нарезка из песен, приведенных к 24 кГц (24 бит / 96 кГц WAV) [10-секундный WAV] (оригинальная версия нарезки) (16 бит / 44.1 кГц WAV)
Предположим, что ваша система способна воспроизводить все форматы с частотами дискретизации 96 кГц [6]. При воспроизведении вышеуказанных файлов, вы не должны слышать ничего, ни шума, ни свиста, ни щелчков или каких других звуков. Если вы слышите что-то, то ваша система имеет нелинейную характеристику и вызывает слышимые нелинейные искажения ультразвука. Будьте осторожны при увеличении громкости, если вы попадете в зону цифрового или аналогового ограничения уровня сигнала, даже мягкого, то это может вызвать громкий интермодуляционный шум.
В целом, не факт, что нелинейные искажения от ультразвука будут слышимы на конкретной системе. Вносимые искажения могут быть как незначительны, так и довольно заметны. В любом случае, ультразвуковая составляющая никогда не является достоинством, и во множестве аудиосистем приведет к сильному снижению качества воспроизведения звука. В системах, которым она не вредит, возможность обработки ультразвука можно сохранить, а можно вместо этого пустить ресурс на улучшение качества звучания слышимого диапазона.
Недопонимание процесса дискретизации
Теория дискретизации часто непонятна без контекста обработки сигналов. И неудивительно, что большинство людей, даже гениальные доктора наук в других областях, обычно не понимают её. Также неудивительно, что множество людей даже не осознают, что понимают её неправильно.
Дискретизированные сигналы часто изображают в виде неровной лесенки, как на рисунке выше (красным цветом), которая выглядит как грубое приближение к оригинальному сигналу. Однако такое представление является математически точным, и когда происходит преобразование в аналоговый сигнал, его график становится гладким (голубая линия на рисунке).
Наиболее распространенное заблуждение заключается в том, что, якобы, дискретизация – процесс грубый и приводит к потерям информации. Дискретный сигнал часто изображается как зубчатая, угловатая ступенчатая копия оригинальной идеально гладкой волны. Если вы так считаете, то можете считать, что чем больше частота дискретизации (и чем больше бит на отсчет), тем меньше будут ступеньки и тем точнее будет приближение. Цифровой сигнал будет все больше напоминать по форме аналоговый, пока не примет его форму при частоте дискретизации, стремящейся к бесконечности.
По аналогии, множество людей, не имеющих отношения к цифровой обработке сигналов, взглянув на изображение ниже, скажут: «Фу!» Может показаться, что дискретный сигнал плохо представляет высокие частоты аналоговой волны, или, другими словами, при увеличении частоты звука, качество дискретизации падает, и частотная характеристика ухудшается или становится чувствительной к фазе входного сигнала.
Это только так выглядит. Эти убеждения неверны!
Комментарий от 04.04.2013: В качестве ответа на всю почту, касательно цифровых сигналов и ступенек, которую я получил, покажу реальное поведение цифрового сигнала на реальном оборудовании в нашем видео Digital Show & Tell, поэтому можете не верить мне на слово.
Все сигналы частотой ниже частоты Найквиста (половина частоты дискретизации) в ходе дискретизации будут захвачены идеально и полностью, и бесконечно высокая частота дискретизации для этого не нужна. Дискретизация не влияет на частотную характеристику или фазу. Аналоговый сигнал может быть восстановлен без потерь – таким же гладким и синхронным как оригинальный.
С математикой не поспоришь, но в чем же сложности? Наиболее известной является требование ограничения полосы. Сигналы с частотами выше частоты Найквиста должны быть отфильтрованы перед дискретизацией, чтобы избежать искажения из-за наложения спектров. В роли этого фильтра выступает печально известный сглаживающий фильтр. Подавление помехи дискретизации, на практике, не может пройти идеально, но современные технологии позволяют подойти к идеальному результату очень близко. А мы подошли к избыточной дискретизации.
Частоты дискретизации свыше 48 кГц не имеют отношения к высокой точности воспроизведения аудио, но они необходимы для некоторых современных технологий. Избыточная дискретизация (передискретизация) – наиболее значимая из них [7].
Идея передискретизации проста и изящна. Вы можете помнить из моего видео «Цифровое мультимедиа. Пособие для начинающих гиков», что высокие частоты дискретизации обеспечивают гораздо больший разрыв между высшей частотой, которая нас волнует (20 кГц) и частотой Найквиста (половина частоты дискретизации). Это позволяет пользоваться более простыми и более надежными фильтрами сглаживания и увеличить точность воспроизведения. Это дополнительное пространство между 20 кГц и частотой Найквиста, по существу, просто амортизатор для аналогового фильтра.
На рисунке выше представлены диаграммы из видео «Цифровое мультимедиа. Пособие для начинающих гиков», иллюстрирующие ширину переходной полосы для ЦАП или АЦП при частоте 48 кГц (слева) и 96 кГц (справа).
Это только половина дела, потому что цифровые фильтры имеют меньше практических ограничений в отличие от аналоговых, и мы можем завершить сглаживание с большей точностью и эффективностью. Высокочастотный необработанный сигнал проходит сквозь цифровой сглаживающий фильтр, который не испытывает проблем с размещением переходной полосы фильтра в ограниченном пространстве. После того, как сглаживание завершено, дополнительные дискретные отрезки в амортизирующем пространстве просто откидываются. Воспроизведение передискретизированного сигнала проходит в обратном порядке.
Это означает, что сигналы с низкой частотой дискретизации (44.1 кГц или 48 кГц) могут обладать такой же точностью воспроизведения, гладкостью АЧХ и низким уровнем наложений, как сигналы с частотой дискретизации 192 кГц или выше, но при этом не будет проявляться ни один из их недостатков (ультразвуковые волны, вызывающие интермодуляционные искажения, увеличенный размер файлов). Почти все современные ЦАП и АЦП производят избыточную дискретизацию на очень высоких скоростях, и мало кто об этом знает, потому что это происходит автоматически внутри устройства.
ЦАП и АЦП не всегда умели передискретизировать. Тридцать лет назад некоторые звукозаписывающие консоли использовали для звукозаписи высокие частоты дискретизации, используя только аналоговые фильтры. Этот высокочастотный сигнал потом использовался для создания мастер-дисков. Цифровое сглаживание и децимация (повторная дискретизация с более низкой частотой для CD и DAT) происходили на последнем этапе создания записи. Это могло стать одной из ранних причин, почему частоты дискретизации 96 кГц и 192 кГц стали ассоциироваться с производством профессиональных звукозаписей.
16 бит против 24 бит
Хорошо, теперь мы знаем, что сохранять музыку в формате 192 кГц не имеет смысла. Тема закрыта. Но что насчет 16-битного и 24-битного аудио? Что же лучше?
16-битное аудио с импульсно-кодовой модуляцией действительно не полностью покрывает теоретический динамический звуковой диапазон, который способен слышать человек в идеальных условиях. Также есть (и будут всегда) причины использовать больше 16 бит для записи аудио.
Ни одна из этих причин не имеет отношения к воспроизведению звука – в этой ситуации 24-битное аудио настолько же бесполезно, как и дискретизация на 192 кГц. Хорошей новостью является тот факт, что использование 24-битного квантования не вредит качеству звучания, а просто не делает его хуже и занимает лишнее место.
Примечания к Части 2
6. Многие из систем, которые неспособны воспроизводить сэмплы 96 кГц, не будут отказываться их воспроизводить, а будут незаметно субдискретизировать их до частоты 48 кГц. В этом случае звук не будет воспроизводиться совсем, и на записи ничего не будет, вне зависимости от степени нелинейности системы.
7. Передискретизация – не единственный способ работы с высокими частотами дискретизации в обработке сигналов. Есть несколько теоретических способов получить ограниченный по полосе звук с высокой частотой дискретизации и избежать децимации, даже если позже он будет субдискретизирован для записи на диски. Пока неясно, используются ли такие способы на практике, поскольку разработки большинства профессиональных установок держатся в секрете.
8. Неважно, исторически так сложилось или нет, но многие специалисты сегодня используют высокие разрешения, потому что ошибочно полагают, что звук с сохраненным содержимым за пределами 20 кГц звучит лучше. Прямо как потребители.
Источник
32 бит 384 кгц что значит
Когда мы знакомились с очередным звуковым интерфейсом Steinberg UR, мы очень ждали обновления старшей модели. Наконец, в 2019 году появился новый флагман AXR4, который получился настолько интересным и богатым в техническом оснащении, что был вынесен из семейства UR в новое семейство AXR. Название AXR расшифровывается как Audio Xcellence Redefined, то есть «переосмысленное совершенство звука». Теперь знакомство с интерфейсами Steinberg лучше начинать с чистого листа.
Интерфейс Steinberg AXR способен не только побороться абсолютно с любым самым навороченным конкурентом, но и, не побоимся этого слова, даже претендовать на лидерство на рынке. Steinberg AXR — это не просто ещё один конвертор в студию. Это готовое законченное решение для любых самых серьёзных студийных задач. Интерфейс заменяет и самые дорогие отдельные предусилители, и качественную оцифровку, и выводит профессиональный звук в наушники и колонки, причём с возможностью аппаратной обработки звука на лету. Для многоканальной записи есть возможность каскадирования — включения сразу нескольких интерфейсов цепочкой, которые видятся в DAW как одно устройство с большим числом каналов. Хотя по отдельности мы уже видели многие функции в разных продукта, но именно их сочетание в одном устройстве, причём, в самой современной технической реализации — это точно впервые.
Команда разработчиков Steinberg Hardware Development Team говорит о том, что при создании AXR они сделали упор именно на звук. Самые современные преобразователи 32 бит 384 кГц оцифровывают и воспроизводят все нюансы исполнения музыки. Специальная схема SSPLL (Super Suppression PLL) основана на аналогово-цифровой архитектуре ФАПЧ, чтобы полностью устранить джиттер как в аналоговой, так и в цифровой форме.
Топовый интерфейс оцифровки с дорогими преампами и кнопкой «Кайф!» — это именно то, о чём мечтают все звукорежиссёры. Гибридные микрофонные предусилители AXR сочетают высокоточное аналоговое усиление и фирменную технологию Virtual Circuitry Modeling от компании Yamaha, которая воссоздаёт звук легендарных аналоговых студийных устройств за счет моделирования электрических цепей в цифровом виде.
Многолетнее сотрудничество инженеров Yamaha с Rupert Neve Designs дало ощутимые плоды. Теперь не обязательно тратиться на безумно дорогой одноканальный студийный предусилитель Neve со знаменитой в узких кругах ручкой Silk. Если требуется получить тот самый винтажный экспрессивный звук, достаточно включить обработку одной кнопкой Silk ON на передней панели интерфейса и тонко отрегулировать текстуру звука регулятором TEXTURE. Причём, это всё отдельные органы управления, которые расположены на виду и отвечают только за эти конкретные функции — по удобству нет разницы с аналоговым прибором. Таким образом, Steinberg AXR предоставляет не только возможность как можно более качественной оцифровки звука, но и расширяет творческие горизонты звукорежиссёра в студии. Причём, и это стоит отдельно отметить, по цене всего одного рэкового одноканального аналогового предусилителя Neve, благодаря современным технологиям моделирования интерфейс Steinberg предлагает целых 4 (!) таких предусилителя. И при этом вообще не нужно задумываться о том, как бы так вывернуться, чтобы оцифровать сигнал с максимальным качеством и потом послушать его на не менее качественном тракте. С Steinberg AXR все эти вопросы полностью решены, а количество каналов можно расширить простым добавлением ещё одного рэкового модуля AXR.
Первым делом мы испытали в действии микрофонные предусилители. Мы подключили студийный микрофон Neumann, на котором хорошо слышна разница между любыми предусилителями.
Мы последовательно записали один и тот же фрагмент голоса несколько раз попеременно включая и выключая кнопку SILK и также послушали разницу между вариантами RED и BLUE. Разница очень хорошо слышна, она абсолютно повторяема. Включение SILK даёт обогащение тембра голоса в области средних частот. Эффект аналогичен сатурации. При этом нельзя сказать, что воздействие на сигнал слишком сильное и мешает последующей динамической и частотной обработке. По ощущению воздействие весьма деликатное и не портит звук, как обработка дешевым плагином. Более того, нам очень понравились сами по себе предусилители. Если у вас уже есть любимая последовательность качественных поканальных эффектов, то вы останетесь довольны высоким качеством звука даже без включения SILK. В основном утепление тембра требуется непрофессиональным певцам, у которых не поставлен голос и есть проблемы с исполнением, а это, зачастую, 90% клиентов студий звукозаписи. Разница между RED и BLUE заключается в тембре. У RED больше высоких частот, BLUE даёт больше середины и басов. Разница очевидна, и её в том числе подтверждает спектр сигнала. Однако видно, что воздействие не очень большое. Это всё-таки не эквализация, а именно эмуляция определённой электронной схемы. Вместе с частотой меняется и характер звука, что нельзя показать на графике.
Мы также послушали, есть ли какая-то субъективная разница между записью в 44 кГц и 384 кГц. Мы пришли к выводу, что совсем не обязательно записывать в 384 кГц, достаточно и 44 кГц, если только финальный формат фонограммы не Hi-Res 24 кГц 96 кГц и выше. Тогда лучше всего иметь оцифровку с запасом на обработку звука, и формат 32 бит 384 кГц будет вполне оправдан.
О качестве звука. Субъективно оно на уровне топовых студийных конвертеров. Мы рассмотрели поподробнее электронную начинку и сделали собственные замеры.
Самый интересный раздел начинки посвящен цифровой части. Мощный чип Yamaha DSPX отвечает за аппаратные эффекты, от поканальной динамической обработки до реверберации. Под массивным радиатором прячется мощный FPGA чип, куда зашита фирменная технология супер ФАПЧ SSPLL и всё управление потоками, идущими с АЦП и на ЦАП.
В части предусилителей мы видим американские чипы THAT, которые являются очень дорогими и используются только в топовых продуктах ведущих производителей. Конечно, важны не только качественные комплектующие, но и полностью вся схемотехника, питание, разводка. Всё решает квалификация разработчиков, что можно проконтролировать только послушав устройство целиком. Но сказать, что начинка совсем не важна — нельзя. Всё важно, всё в комплексе даёт итоговый результат.
Применены 2-канальные АЦП AKM AK5572 с параметрами Кг+шум -112 дБ, динамический диапазон 121 дБА.
Также стоят дорогие 2-канальные ЦАП AKM AK4495, динамический диапазон 120 дБА, Кг+шум -101 дБ. Учитывая количество дорогих конверторов и электролитов, начинка выглядит немного аудиофильской. Но звуке ничего плохого нет. Тембры передаются натурально, не заметно никаких окрасов или отсебятины.
Выбор ОУ 5532 и 2068 обусловлен их способностью работать с высокими напряжениями питания на очень высоких амплитудах. Максимальный размах составляет +24 dBu, что типично для студийной аппаратуры, где любыми путями борются с шумами и наводками. Повышение амплитуды сигнала — один из проверенных путей. Также в цифровой технике недопустима перегрузка. Поэтому даже если RMS сигнала не превышает номинальных +4 dBu, логично иметь 20 дБ headroom для любых самых коварных пиков в записи. При этом 120 дБ динамического диапазона дают возможность не беспокоиться о собственных шумах устройства. Если требуется запись с меньшим уровнем, то для максимального использования диапазона конверторов стоит выбрать настройку -10dBV, при которой чувствительность входов существенно вырастет.
В прочих возможностях устройство не уступает чистым конверторам. Если вдруг необходимо подключить уже имеющийся дорогой ламповый студийный предусилитель или интегрировать AXR в стойку с другими устройствами, то с этим проблем также не возникнет. Общее число входных каналов составляет 24 штуки. Здесь есть 8 «чистых», не совмещённых с предусилителями, аналоговых входов TRS. Также есть 2 банка ADAT и стандартная DB25 планка AES/EBU для подключения рэковых конверторов. Разумеется, есть и WORD CLOCK для приёма или раздачи общего тактового сигнала в студии.
Важно, что подключение Thunderbolt работает как под Mac OSX, так и под Windows. Поддержка Windows появилась немного позже, но мы протестировали на двух разных системах с Windows 10 (1903) и убедились в отсутствии каких-либо проблем — всё работает так, как нужно. Мы использовали Thunderbolt 2 порты подключения. С Thunderbolt 3 есть нюансы по последовательности включения ПК и Steinberg AXR. Всё это отражено в отдельном руководстве по установке.
Польза от Thunderbolt в домашней или проектной студии не так очевидна, ведь там редко требуется больше, чем 2 канала 24 бит 44 кГц. Но для профессионального применения преимущества могут проявиться. Шина Thunderbolt представляет собой внешний вариант внутренней очень быстрой шины PCI Express. Сотни каналов высокого разрешения способны работать с рекордно низкой задержкой. Особенно, если поставить режим 32 бит 384 кГц — полоса пропускания должна быть выше в десятки раз. Минус у шины Thunderbolt только один: если в вашем компьютере такой разъём не предусмотрен, добавить его картой расширения не получится. Разъём должен аппаратно присутствовать внутри материнской платы. Зато если разъём есть, то он обычно работает без каких-либо нареканий. Мы протестировали Thunderbolt интерфейсы уже от десятка разных производителей и пришли к выводу, что в дорогой студийной аппаратуре это давно перестало быть экзотикой. Единственный необъяснимый момент для нас — это то, что Thunderbolt интерфейсы не комплектуются Thunderbolt кабелем. Его нужно докупать отдельно, даже если цена звукового интерфейса много тысяч долларов. Тогда как, например, USB кабель идёт в комплекте всегда. Мы всегда используем для подключения официальный 2-метровый Thunderbolt кабель производства Apple, с которым ни разу не встречали проблем.
Суммарная (RTL) задержка менее очень низкая. 3 мс — это меньше, чем у USB интерфейсов. Отдельно для входа выхода значение будет вдвое ниже, то есть заметить задержку нереально. Кого интересуют рекордные цифры — они достижимы в режимах 96 кГц и выше, где задержка уменьшается ещё в несколько раз, но уже может пострадать стабильность работы из-за недостаточной мощности CPU компьютера, так что нужно подходить к настройкам с умом и не гнаться за абсолютными рекордами.
Источник