YouTube का ज़ोर सामान्यकरण एल्गोरिथ्म

YouTube पर उच्चतम ध्वनि गुणवत्ता वाले वीडियो को बढ़ाने के लिए, आपको YouTube जोर सामान्यीकरण विनिर्देश को जानने की आवश्यकता है।

हालांकि, यूट्यूब की जोर सामान्यीकरण विनिर्देश प्रकाशित नहीं किया गया है। कुछ लोगों की पहले से ही जांच की जा चुकी है, लेकिन विशिष्ट गणना सूत्र ज्ञात नहीं हैं।

मैंने YouTube पर जोर सामान्यीकरण के लिए सूत्र का अनुमान लगाने का प्रयास किया।

अंतर्वस्तु

1 यूट्यूब जोर सामान्यीकरण विनिर्देश
2 अनुसंधान नीति
3 यूट्यूब की जोर सामान्यीकरण का एक बड़ा फ्रेम
4 यूट्यूब पर लाउडनेस गणना फॉर्मूला
5 पैरामीटर अनुमान के लिए इस्तेमाल किया गया परीक्षण वीडियो
6 तुल्यकारक पैरामीटर अनुमान
7 तुल्यकारक के अलावा पैरामीटर अनुमान
- 7.1 पैरामीटर सूची
- 7.2 परिणाम सूची
8 परिशिष्ट
9 ग्रन्थसूची
10 इतिहास बदलें
11 सारांश
- 11.1 संबंधित लेख

यूट्यूब जोर सामान्यीकरण विनिर्देश

निम्नलिखित सर्वेक्षण परिणामों का सारांश है।

जोर से सामान्यीकरण इस तरीके से किया जाता है कि ध्वनि स्रोत की जोर से जोर से लक्ष्य मूल्य में समायोजित किया जाता है जितना संभव हो उतना सीमा में जहां चोटी क्लिप नहीं होती है।

ध्वनि स्रोत की जोर से इसकी विशिष्टताओं के साथ गणना की जाती है, लेकिन निम्नलिखित के साथ ईबीयू टेक 3341 की शॉर्ट-टर्म जोर की वेटिंग वक्र को प्रतिस्थापित करके और शॉर्ट-टर्म जोर से अधिकतम मूल्य ले कर, 1 डीबी की सटीकता प्राप्त करना संभव है अनुमानित किया जा सकता है।

अनुसंधान नीति

हम विस्तार से YouTube की जोरदार सामान्यीकरण के ढांचे और जोर से गणना के विवरण की जांच करेंगे।

यूट्यूब की जोर सामान्यीकरण का एक बड़ा फ्रेम

मुझे लगता है कि शायद यह यहाँ की चर्चा करते समय निम्नलिखित की तरह दिखता है ।

यूट्यूब पर जोरदार सामान्यीकरण इस तरह से किया जाता है कि ध्वनि स्रोत की जोर से जोर से लक्ष्य मूल्य में समायोजित किया जाता है जहां तक चोटी क्लिप नहीं होती है। जब अभिव्यक्ति के साथ लिखा जाता है, तो यह निम्न हो जाता है।

मुआवजा (डीबी) = न्यूनतम (- पीक, लक्ष्य - लाउडनेस)

चोटी ध्वनि स्रोत की चोटी है, लाउडनेस ध्वनि स्रोत की जोर है, लक्ष्य स्थिर है, जोर लक्ष्य लक्ष्य है, और मुआवजा सुधार लाभ है। कुल मात्रा मुआवजे की मात्रा से समान रूप से बदलती है।

YouTube वीडियो पर राइट क्लिक करें और विस्तृत सांख्यिकीय जानकारी से देखी गई सामग्री जोर से लाउडनेस - लक्ष्य के बराबर है।

यूट्यूब पर लाउडनेस गणना फॉर्मूला

यूट्यूब की जोरदार गणना फॉर्मूला अपने आप का उपयोग कर रहा है। तो, मुझे अनुमान लगाने की ज़रूरत है।

आईटीयू-आर बीएस.1770-3 के संदर्भ में निम्नलिखित मॉडल पर विचार करें।

तुल्यकारक -> खिड़की से कटौती -> LUFS में कनवर्ट करें -> गेटिंग -> एकत्रीकरण

तुल्यकारक

एक तुल्यकारक द्वारा प्रत्येक आवृत्ति वजन।

पिछले प्रयोगों में, आईटीयू-आर बीएस.1770-3 में अपनाए गए के-वेटिंग और अन्य लोकप्रिय भारोत्तोलन लागू नहीं हुए थे, इसलिए प्रत्यक्ष आवृत्ति विशेषताओं का अनुमान लगाएं।

खिड़की से कटौती

रेक्ट विंडो के साथ तरंगों को काट लें।

खिड़की की लंबाई और ओवरलैप अनुपात पैरामीटर हैं।

संदर्भ के लिए, आईटीयू-आर बीएस.1770-3 और ईबीयू टेक 3341 के क्षणिक और एकीकृत मानकों में 400 मीटर की खिड़की की लंबाई और 100 एमएस की ओवरलैप लंबाई (ओवरलैप अनुपात 75% है)। ईबीयू टेक 3341 के अल्पावधि जोर से पैरामीटर में 3 सेकंड की खिड़की की लंबाई होती है और 2.9 सेकेंड या उससे अधिक की ओवरलैप लंबाई होती है (ओवरलैप अनुपात 96.7% या उससे अधिक है)।

LUFS में कनवर्ट करें

निकाले गए तरंगों के आरएमएस की गणना करें और इसे लॉग 10 (आरएमएस) के साथ LUFS में परिवर्तित करें।

यह स्टीरियो 1000 हर्ट्ज साइन लहर के साथ 0 होने के लिए भी सुधार करता है। आईटीयू-आर बीएस.1770-3 के लिए सुधार राशि -0.6 9 1 डीबी है।

गेटिंग

जोर से चुप्पी के समय को खत्म करने के लिए, हम कटौती करके प्राप्त कई आरएमएस मूल्यों के बीच छोटी आवाज़ें छोड़ देते हैं।

आईटीयू-आर बीएस.1770-3 और ईबीयू टेक 3342 का संदर्भ लें और पूर्ण थ्रेसहोल्ड गेटिंग और रिलेटिव थ्रेसहोल्ड गेटिंग करें।

पैरामीटर संबंधित थ्रेसहोल्ड मान हैं। मैं उन पैटर्नों का भी प्रयास करता हूं जो गेटिंग नहीं करते हैं।

संदर्भ के लिए, आईटीयू-आर बीएस.1770-3 और ईबीयू टेक 3341 के पैरामीटर पूर्ण थ्रेसहोल्ड -70 एलकेएफएस और रिलेटिव थ्रेसहोल्ड -10 डीबी हैं। ईबीयू टेक 3342 की लाउडनेस रेंज की गणना के लिए पैरामीटर्स पूर्ण थ्रेसहोल्ड -70 एलकेएफएस और रिलेटिव थ्रेसहोल्ड -20 डीबी हैं।

एकत्रीकरण

गेटिंग में शेष आरएमएस मूल्यों का औसत या अधिकतम लें।

ITU-R BS.1770-3 एक औसत लेता है, लेकिन ऐसा लगता है कि इस हिसाब से शॉर्ट-टर्म के अधिकतम मूल्य का उपयोग करने की संभावना है।

पैरामीटर अनुमान के लिए इस्तेमाल किया गया परीक्षण वीडियो

जोर से गणना मॉडल के पैरामीटर का अनुमान लगाने के लिए एक परीक्षण फिल्म तैयार करें।

यहाँ के अनुसार, ऐसा लगता है कि इस बात की संभावना है कि यदि कुछ निश्चित संख्या में प्लेबैक संख्याएँ नहीं हैं, तो लाउड नॉर्मलाइज़ेशन लागू नहीं होगा, या यह तब तक लागू नहीं होगा जब तक कि पोस्टिंग के बाद से कुछ समय बीत न जाए। अपने दम पर परीक्षण वीडियो तैयार किए बिना, पर्याप्त प्लेबैक संख्याएं हैं, कुछ मौजूदा वीडियो का चयन करें जिन्हें पर्याप्त बार पोस्ट किया गया है, और उन्हें परीक्षण वीडियो बनाते हैं।

परिशिष्ट में परीक्षण वीडियो की एक सूची वर्णित है।

तुल्यकारक पैरामीटर अनुमान

एक निरंतर मात्रा के साथ एक sinusoidal परीक्षण फिल्म का उपयोग करके, आप जोर से बराबर के अलावा प्रभाव को खत्म कर सकते हैं। इसका उपयोग हम पहले तुल्यकारक की आवृत्ति प्रतिक्रिया का अनुमान लगाते हैं।

विभिन्न आवृत्तियों के साइन लहर ध्वनि स्रोत के लिए, YouTube पर सामग्री जोर से मापें और ध्वनि स्रोत के आरएमएस से अंतर लेकर आवृत्ति विशेषताओं का अनुमान लगाएं। अनुमान परिणाम नीचे है। विस्तृत डेटा के लिए कृपया परिशिष्ट देखें।

नतीजा अस्थिर था, उदाहरण के लिए, परिणाम 16 केएचजेज़ से ऊपर की समान आवृत्ति पर भी एनीमेशन के आधार पर अलग थे, इसलिए निम्नलिखित चर्चा में, हम केवल 15 केएचजेड से नीचे डेटा का उपयोग करेंगे। 44 हर्ट्ज या उससे कम और 15 केएचजेड या उससे अधिक के लिए रैखिक इंटरपोलेशन के साथ निकालें।

तुल्यकारक के अलावा पैरामीटर अनुमान

इसके बाद, तुल्यकारक की आवृत्ति विशेषताओं को ठीक करें और तुल्यकारक के अलावा पैरामीटर अनुमानित करें।

विभिन्न मानकों के साथ विभिन्न वीडियो की जोर से गणना करें। यूट्यूब द्वारा गणना की गई जोर से (सामग्री लाउडस) की तुलना करें और कम से कम त्रुटि वाले पैरामीटर को देखें। परीक्षण वीडियो सूची परिशिष्ट में वर्णित है।

पैरामीटर सूची

पैरामीटर	मूल्य
खिड़की की लंबाई	400 एमएस, 3 सेकंड
ओवरलैप अनुपात	75%, 96.7%
पूर्ण दहलीज	कोई नहीं, -70 एलकेएफएस
सापेक्ष दहलीज	कोई नहीं, -10 डीबी, -20 डीबी
एकत्रीकरण	मतलब, अधिकतम

परिणाम सूची

पैरामीटर	अनुमानित लक्ष्य (LUFS)	त्रुटि Stddev (डीबी)	त्रुटि मैक्स (डीबी)
पेट थ्रेसहोल्ड कोई नहीं, रिला थ्रेसहोल्ड कोई नहीं, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब	-16.15449408	5.51255362	10.73290254
पेट थ्रेसहोल्ड कोई नहीं, रिला थ्रेसहोल्ड कोई नहीं, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब	-14.97681484	4.908278646	11.91484089
पेट थ्रेसहोल्ड कोई नहीं, रिले थ्रेसहोल्ड - 10 डीबी, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब	-13.94987923	3.954370989	7.389401665
पेट थ्रेसहोल्ड कोई नहीं, रिले थ्रेसहोल्ड - 10 डीबी, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब	-13.68684721	3.684007274	7.647167492
पेट थ्रेसहोल्ड कोई नहीं, रिले थ्रेसहोल्ड - 20 डीबी, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब	-14.49831437	4.531255406	9.145055115
पेट थ्रेसहोल्ड कोई नहीं, रिले थ्रेसहोल्ड - 20 डीबी, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब	-14.01660691	4.048723057	9.667181199
पेट थ्रेसहोल्ड - 70 LUFS, रिला थ्रेसहोल्ड कोई नहीं, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब	-16.15449408	5.51255362	10.73290254
पेट थ्रेसहोल्ड - 70 LUFS, रिला थ्रेसहोल्ड कोई नहीं, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब	-14.97681484	4.908278646	11.91484089
पेट थ्रेसहोल्ड - 70 LUFS, रिले थ्रेसहोल्ड - 10 डीबी, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब	-13.89217514	3.911543318	7.447105751
abs threshold - 70 LUFS, rel दहलीज - 10 डीबी, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब	-13.66565863	3.666025972	7.668356069
पेट थ्रेसहोल्ड - 70 LUFS, रिले थ्रेसहोल्ड - 20 डीबी, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब	-14.47170654	4.52391958	9.171662946
abs threshold - 70 LUFS, rel दहलीज - 20 डीबी, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब	-14.00512426	4.038389533	9.678663846
पेट थ्रेसहोल्ड कोई नहीं, रिला थ्रेसहोल्ड कोई नहीं, विंडो 0.4 सेकंड, ओवरलैप 75%, अधिकतम	-8.993721502	1.106961021	2.968119771
पेट थ्रेसहोल्ड कोई नहीं, रिला थ्रेसहोल्ड कोई नहीं, विंडो 3 सेकंड, 96.7% ओवरलैप, अधिकतम	-10.31246414	0.90143559	1.746039964
आईटीयू-आर बीएस.1770-3	-10.39317645	11.03141212	33.14216451
आरएमएस	-13.03007896	10.1756184	29.41685531

कम से कम त्रुटि के साथ पैरामीटर संयोजन विंडो आकार 3 सेकंड था, ओवरलैप दर 96.7%, अधिकतम एकत्रीकरण, त्रुटि की मानक त्रुटि 0.9 डीबी थी, अधिकतम त्रुटि 1.7 डीबी थी। यह ईबीयू तकनीक 3341 की अल्पकालिक जोर से अधिकतम मूल्य है। जोर से लक्ष्य मूल्य -10.3 LUFS है।

इसके साथ, आप YouTube की जोरदार गणना विधि का अनुमान लगा सकते हैं।