Algoritmo de normalización de sonoridad de YouTube

Para elevar el video de mejor calidad de sonido a YouTube, debe conocer la especificación de normalización de sonoridad de YouTube.

Sin embargo, la especificación de normalización de sonoridad de YouTube no se publica. Algunas personas ya han sido investigadas, pero no se conocen fórmulas de cálculo específicas.

Intenté estimar la fórmula para la normalización de la sonoridad en YouTube.

Especificación de normalización de sonoridad de YouTube

El siguiente es un resumen de los resultados de la encuesta.

La normalización de la sonoridad se realiza de una manera que la sonoridad de la fuente de sonido se ajusta al valor objetivo de la sonoridad tanto como sea posible dentro de un rango donde el pico no se recorta.

La sonoridad de la fuente de sonido se calcula con sus propias especificaciones, pero al reemplazar la curva de ponderación de Sonoridad a corto plazo de EBU TECH 3341 con lo siguiente y tomar el valor máximo de Sonoridad a corto plazo, es posible obtener una precisión de 1 dB Puede ser aproximado.

Curva de ponderación estimada utilizada para la normalización de la sonoridad de YouTube

Política de investigación

Investigaremos en detalle el marco de la normalización de la sonoridad de YouTube y los detalles del cálculo de la sonoridad.

Un gran cuadro de la normalización de la sonoridad de YouTube.

Creo que probablemente se parece a lo siguiente cuando se hace referencia aquí .

La normalización de la sonoridad en YouTube se realiza de manera que la sonoridad de la fuente de sonido se ajusta al valor objetivo de la sonoridad tanto como sea posible dentro del rango donde el pico no se recorta. Cuando se escribe con una expresión, se convierte en lo siguiente.

Compensación (dB) = Min (- Pico, Objetivo - Sonoridad)

Pico es el pico de la fuente de sonido, Loudness es el volumen de la fuente de sonido, Target es una constante, el valor objetivo de sonoridad y Compensation es la ganancia de corrección. El volumen global cambia uniformemente por la cantidad de Compensación.

Haga clic con el botón derecho en un video de YouTube y el volumen del contenido visto en la información estadística detallada es equivalente a Loudness - Target.

Fórmula de cálculo de sonoridad en YouTube

La fórmula de cálculo de sonoridad de YouTube parece estar utilizando su propia. Por lo tanto, tengo que adivinar.

Considere el siguiente modelo con referencia a ITU-R BS.1770-3.

Ecualizador -> Cortar por ventana -> Convertir a LUFS -> Puertas de enlace -> Agregación

Ecualizador

Ponle peso a cada frecuencia con un ecualizador.

En experimentos anteriores, la ponderación de K adoptada en UIT-R BS.1770-3 y otra ponderación popular no se aplicó, por lo que se estiman las características de frecuencia directas.

Cortar por la ventana

Cortar la forma de onda con la ventana Rect.

La longitud de la ventana y la relación de superposición son parámetros.

Para referencia, los parámetros momentáneos e integrados de ITU-R BS.1770-3 y EBU TECH 3341 tienen una longitud de ventana de 400 ms y una longitud de superposición de 100 ms (la relación de superposición es del 75%). El parámetro de sonoridad a corto plazo de EBU TECH 3341 tiene una ventana de 3 segundos y una superposición de 2,9 segundos o más (la relación de superposición es de 96.7% o más).

Convertir a LUFS

Calcule el RMS de la forma de onda extraída y conviértalo a LUFS con Log 10 (RMS).

También corrige ser 0 con onda sinusoidal estéreo de 1000 Hz. La cantidad de corrección para ITU-R BS.1770-3 es -0.691 dB.

Gating

Con el fin de eliminar la influencia del tiempo de silencio en la sonoridad, descartamos los sonidos pequeños entre los múltiples valores RMS obtenidos al recortar.

Consulte UIT-R BS.1770-3 y EBU TECH 3342 y ejecute la activación por umbral absoluto y la activación por umbral relativa.

Los parámetros son los respectivos valores de umbral. También trato de patrones que no hacen gating.

Para referencia, los parámetros de ITU-R BS.1770-3 y EBU TECH 3341 son Umbral Absoluto -70 LKFS y Umbral Relativo -10 dB. Los parámetros para calcular el rango de sonoridad de EBU TECH 3342 son Umbral absoluto -70 LKFS y Umbral relativo -20 dB.

Agregacion

Tome el promedio o el máximo de los múltiples valores RMS restantes en Gating.

UIT-R BS.1770-3 toma un promedio, pero parece que existe la posibilidad de usar el valor máximo de Corto plazo según esto .

Video de prueba utilizado para la estimación de parámetros

Prepare una película de prueba para estimar los parámetros del modelo de cálculo de sonoridad.

Según aquí , parece que existe la posibilidad de que la normalización de la sonoridad no se aplique si no hay un número determinado de números de reproducción, o no se aplicará a menos que haya transcurrido algún tiempo desde la publicación. Sin preparar los videos de prueba por sí mismos, hay suficientes números de reproducción, seleccionar algunos de los videos existentes que se han publicado suficientes veces y hacer que los videos de prueba.

Una lista de videos de prueba se describe en el Apéndice.

Estimación de parámetros de ecualizador

Al utilizar una película de prueba sinusoidal con un volumen constante, puede eliminar otros efectos que no sean la ecualización en el volumen. Usando esto primero estimamos la respuesta de frecuencia del ecualizador.

Para la fuente de sonido de onda sinusoidal de varias frecuencias, mida el volumen del contenido en YouTube y estime las características de frecuencia tomando la diferencia del RMS de la fuente de sonido. El resultado de la estimación es a continuación. Para obtener información detallada, consulte el Apéndice.

Curva de ponderación estimada utilizada para la normalización de la sonoridad de YouTube

El resultado fue inestable; por ejemplo, los resultados fueron diferentes según la animación, incluso a la misma frecuencia por encima de 16 kHz, por lo que en el siguiente análisis solo usaremos datos por debajo de 15 kHz. Extrapolar con interpolación lineal para 44 Hz o menos y 15 kHz o más.

Estimación de parámetros distintos del ecualizador

A continuación, corrija las características de frecuencia del ecualizador y estime los parámetros distintos del ecualizador.

Calcula el volumen de varios videos con varios parámetros. Compare con la sonoridad (contenido en voz alta) calculada por YouTube y busque el parámetro con el menor error. La lista de videos de prueba se describe en el Apéndice.

Lista de parámetros

ParámetrosValor
Longitud de la ventana400 ms, 3 seg.
Relación de superposición75%, 96.7%
Umbral absolutoNinguno, -70 LKFS
Umbral relativoNinguno, -10 dB, -20 dB
Agregacionsignifica, max

Lista de resultados

ParámetrosObjetivo estimado (LUFS)Error Stddev (dB)Error Max (dB)
umbral de abs ninguno, umbral de rel ninguno, ventana de 0,4 segundos, superposición del 75%, media-16.154494085.5125536210.73290254
umbral abs ninguno, umbral rel ninguno, ventana 3 seg, superposición 96.7%, media-14.976814844.90827864611.91484089
umbral abs ninguno, umbral rel - 10 dB, ventana de 0,4 segundos, superposición del 75%, media-13.949879233.9543709897.389401665
umbral abs ninguno, umbral rel - 10 dB, ventana 3 segundos, superposición 96.7%, media-13.686847213.6840072747.647167492
umbral abs ninguno, umbral rel - 20 dB, ventana de 0,4 segundos, superposición del 75%, media-14.498314374.5312554069.145055115
umbral abs ninguno, umbral rel - 20 dB, ventana 3 segundos, superposición 96.7%, media-14.016606914.0487230579.667181199
umbral abs - 70 LUFS, umbral rel ninguno, ventana de 0,4 segundos, superposición del 75%, media-16.154494085.5125536210.73290254
umbral abs - 70 LUFS, umbral rel ninguno, ventana 3 segundos, superposición 96.7%, media-14.976814844.90827864611.91484089
umbral abs - 70 LUFS, umbral rel - 10 dB, ventana de 0,4 segundos, superposición del 75%, media-13.892175143.9115433187.447105751
umbral abs - 70 LUFS, umbral rel - 10 dB, ventana 3 seg, superposición 96.7%, media-13.665658633.6660259727.668356069
umbral abs - 70 LUFS, umbral rel - 20 dB, ventana de 0,4 segundos, superposición del 75%, media-14.471706544.523919589.171662946
umbral abs - 70 LUFS, umbral rel - 20 dB, ventana 3 seg, superposición 96.7%, media-14.005124264.0383895339.678663846
umbral de abs ninguno, umbral de rel ninguno, ventana de 0,4 segundos, superposición 75%, máx.-8.9937215021.1069610212.968119771
umbral abs ninguno, umbral rel ninguno, ventana 3 segundos, superposición 96.7%, máx.-10.312464140.901435591.746039964
UIT-R BS.1770-3-10.3931764511.0314121233.14216451
RMS-13.0300789610.175618429.41685531

La combinación de parámetros con el menor error fue el tamaño de la ventana 3 segundos, la tasa de superposición 96.7%, la agregación máxima, el error estándar de error fue de 0.9 dB, el error máximo fue de 1.7 dB. Es el valor máximo de Sonoridad a corto plazo de EBU TECH 3341. El valor objetivo de sonoridad es -10.3 LUFS.

Con esto, puedes estimar el método de cálculo de sonoridad de YouTube.

Apéndice

Resultado de la medición del parámetro del ecualizador (tsv)

Datos de estimación de parámetros (tsv) distintos del ecualizador

Referencias

UIT-R BS.1770-3

EBU TECH 3341

EBU TECH 3342

Intenté verificar la normalización de la sonoridad de Youtube.

Cambiar la historia

2018/12/09 Se corrigió un error de cálculo (última versión)

2018/12/7 primera edición

Resumen

Busqué la fórmula para la normalización de la sonoridad en YouTube. Encontré una expresión que se puede aproximar con una precisión de aproximadamente 1 dB.