YouTube 음량 노멀 라이 제이션 알고리즘

YouTube에 최고 음질의 동영상을 올리기 위하여는 YouTube 음량 노멀 라이 제이션 사양을 알 필요가 있습니다.

그러나 YouTube 음량 노멀 라이 제이션 사양은 공개되지 않습니다. 이미 조사 된 분도 있습니다 만, 구체적인 계산식까지 알려져 있지 않습니다.

YouTube 음량 노멀 라이 제이션의 계산식을 추정하여 보았습니다.

YouTube 음량 노멀 라이 제이션 사양

다음 조사 결과의 요약입니다.

음량 노멀 라이 제이션은 피크가 클리핑하지 않는 범위에서 가능한 한 음원의 음량을 음량 목표치에 맞추는 형태로 진행된다.

음원의 음량은 자신의 사양으로 계산되지만, EBU TECH 3341의 Short-term loudness의 Weighting Curve를 다음으로 대체하고, Short-term loudness의 최대 값을 취하는 것으로, 1dB 정도의 정밀도로 근사있다.

Estimated Weighting Curve Used for YouTube Loudness Normalization

조사 방침

YouTube 음량 노멀 라이 제이션의 큰 틀의 구조와 음량 계산에 대한 자세한 나누어 조사합니다.

YouTube 음량 노멀 라이 제이션의 큰 틀

여기 에 참고로하면 아마 다음과 같이되어 있다고 생각합니다.

YouTube 음량 노멀 라이 제이션은 피크가 클리핑하지 않는 범위에서 가능한 한 음원의 음량을 음량 목표치에 맞추는 형태로 진행된다. 식으로 쓰면 다음입니다.

Compensation (dB) = Min (-Peak, Target - Loudness)

Peak는 음원의 피크, Loudness는 음원의 음량, Target은 정수로 음량 목표치 Compensation 보정 게인을 나타냅니다. 전체 볼륨이 Compensation만큼 균일하게 변화합니다.

YouTube 동영상을 오른쪽 클릭하고 자세한 통계에서 볼 수있는 Content Loudness는 Loudness - Target에 해당합니다.

YouTube 음량 계산

YouTube 음량 계산식은 자신의 것이 사용되고있는 것입니다. 그래서 추측해야합니다.

ITU-R BS.1770-3을 참고하여 다음과 같은 모델을 생각합니다.

이퀄라이저 -> 창에서 잘라 -> LUFS로 변환 -> Gating -> Aggregation

이퀄라이저

이퀄라이저 주파수마다 가중치를합니다.

사전 실험에서 ITU-R BS.1770-3에서 채용되고있는 K-weighting 및 기타 인기있는 weighting가 맞지 않았기 때문에 직접 주파수 특성을 추정합니다.

창문으로 잘라

파형을 Rect 창에서 잘라냅니다.

창 길이와 오버랩 비율이 매개 변수입니다.

참고로 ITU-R BS.1770-3와 EBU TECH 3341의 momentary과 integrated 매개 변수는 창 길이가 400ms 겹침 길이가 100ms (오버랩 비율은 75 %)입니다. EBU TECH 3341의 short-term loudness 매개 변수는 창 길이가 3 초 겹침 길이가 2.9 초 이상 (오버랩 비율은 96.7 % 이상)입니다.

LUFS로 변환

잘라낸 파형의 RMS를 계산하고 Log10 (RMS)에서 LUFS로 변환합니다.

스테레오 1000Hz 정현파 0이되도록 보정도 겁니다. ITU-R BS.1770-3의 경우 보정량은 -0.691dB입니다.

Gating

라우드니스에 대한 무음 시간의 영향을 줄이기 위해 잘라 얻은 여러 RMS 값에서 소리가 작은 것을 버리고 있습니다.

ITU-R BS.1770-3와 EBU TECH 3342을 참고하여 Absolute threshold gating와 Relative threshold gating합니다.

매개 변수는 각각의 Threshold 값입니다. Gating을하지 않는 패턴도 시도합니다.

참고로 ITU-R BS.1770-3와 EBU TECH 3341 매개 변수는 Absolute Threshold가 -70LKFS, Relative Threshold가 -10dB입니다. EBU TECH 3342의 Loudness Range 계산을위한 매개 변수는 Absolute Threshold가 -70LKFS, Relative Threshold가 -20dB입니다.

Aggregation

Gating 남은 여러 RMS 값의 평균 또는 최대 값을 취합니다.

ITU-R BS.1770-3에서 평균을 가지고 있지만, 여기 에 따르면, Short-term의 최대 값을 사용하고있을 가능성이있는 것입니다.

매개 변수 추정에 사용 테스트 동영상

음량 계산 모델의 매개 변수를 추정하기위한 테스트 동영상을 제공합니다.

여기 에 따르면, 음량 노멀 라이 제이션은 어느 정도의 재생수가 없으면 적용되지 않으며 게시 한 후 어느 정도 시간이 지나지 않는다고 적용되지 않거나 가능성이있는 것 같습니다. 자기 부담으로 테스트 동영상을 준비하지 않고 충분한 재생수이 게시 한 후 충분한 시간이 지난 기존의 동영상을 여러 선택 테스트 동영상합니다.

테스트 동영상 목록은 Appendix에 기재했습니다.

이퀄라이저 매개 변수 추정

볼륨이 일정한 정현파 테스트 동영상을 사용하면 음량에 대한 이퀄라이저 이외의 영향을 배제 할 수 있습니다. 이것을 사용하여 우선 이퀄라이저의 주파수 특성을 추정합니다.

다양한 주파수의 정현파 음원에 대해 YouTube에서 Content Loudness를 측정하여 음원의 RMS와의 차이를 취하는 것으로, 주파수 특성을 추정합니다. 추정 결과는 다음과 같습니다. 자세한 데이터는 Appendix를 참조하십시오.

Estimated Weighting Curve Used for YouTube Loudness Normalization

16kHz 이상은 동일한 주파수에서 동영상에 따라 결과가 다를 수 있습니다 결과가 불안정했기 때문에 이후의 논의에서는 15kHz 이하의 데이터만을 사용합니다. 44Hz 이하로 15kHz 이상은 선형 보간 외삽 있습니다.

이퀄라이저 이외의 매개 변수 추정

다음은 이퀄라이저의 주파수 특성을 고정하고 이퀄라이저 이외의 매개 변수를 추정합니다.

다양한 파라미터로 다양한 동영상의 음량을 계산합니다. YouTube에서 계산하는 라우드니스 (Content Loudess)과 비교하여 오차가 가장 적은 매개 변수를 찾습니다. 테스트 동영상 목록은 Appendix에 기재했습니다.

매개 변수 목록

매개 변수
창 길이400ms, 3sec
오버랩 비율75%, 96.7%
Absolute threshold아니, -70LKFS
Relative threshold아니, -10dB, -20dB
Aggregationmean, max

결과 목록

ParametersEstimated Target (LUFS)Error Stddev (dB)Error Max (dB)
abs threshold none, rel threshold none, window 0.4sec, overlap 75 %, mean-16.154494085.5125536210.73290254
abs threshold none, rel threshold none, window 3sec, overlap 96.7 %, mean-14.976814844.90827864611.91484089
abs threshold none, rel threshold -10dB, window 0.4sec, overlap 75 %, mean-13.949879233.9543709897.389401665
abs threshold none, rel threshold -10dB, window 3sec, overlap 96.7 %, mean-13.686847213.6840072747.647167492
abs threshold none, rel threshold -20dB, window 0.4sec, overlap 75 %, mean-14.498314374.5312554069.145055115
abs threshold none, rel threshold -20dB, window 3sec, overlap 96.7 %, mean-14.016606914.0487230579.667181199
abs threshold -70LUFS, rel threshold none, window 0.4sec, overlap 75 %, mean-16.154494085.5125536210.73290254
abs threshold -70LUFS, rel threshold none, window 3sec, overlap 96.7 %, mean-14.976814844.90827864611.91484089
abs threshold -70LUFS, rel threshold -10dB, window 0.4sec, overlap 75 %, mean-13.892175143.9115433187.447105751
abs threshold -70LUFS, rel threshold -10dB, window 3sec, overlap 96.7 %, mean-13.665658633.6660259727.668356069
abs threshold -70LUFS, rel threshold -20dB, window 0.4sec, overlap 75 %, mean-14.471706544.523919589.171662946
abs threshold -70LUFS, rel threshold -20dB, window 3sec, overlap 96.7 %, mean-14.005124264.0383895339.678663846
abs threshold none, rel threshold none, window 0.4sec, overlap 75 %, max-8.9937215021.1069610212.968119771
abs threshold none, rel threshold none, window 3sec, overlap 96.7 %, max-10.312464140.901435591.746039964
ITU-R BS.1770-3-10.3931764511.0314121233.14216451
RMS-13.0300789610.175618429.41685531

오차가 가장 적은 매개 변수의 조합은 창문 길이 3 초 오버랩 비율 96.7 %, Max Aggregation에서 오차의 표준 편차는 0.9dB 최대 오차는 1.7dB였습니다. EBU TECH 3341의 Short-term loudness 최대 네요. 음의 목표치는 -10.3LUFS입니다.

이상에서 YouTube 음량 계산 방법을 추정 할 수있었습니다.

Appendix

이퀄라이저 파라미터 측정 결과 (tsv)

이퀄라이저 이외의 매개 변수 추정을위한 데이터 (tsv)

참고 문헌

ITU-R BS.1770-3

EBU TECH 3341

EBU TECH 3342

Youtube 음량 노멀 라이 제이션을 검증 해 보았다.

변경 내역

2018/12/09 계산 오류를 수정했습니다 (최신 버전)

2018/12/07 초판

정리

YouTube 음량 노멀 라이 제이션의 계산식을 조사했다. 1dB 정도의 정밀도로 근사 할 수있는 식을 찾았습니다.