Kompandowanie

Nieliniowa kwantyzacja z użyciem praw A-law i µ-law w celu poprawy SNR dla słabych sygnałów.

Problem: Słabość Kwantyzacji Liniowej

Zanim zrozumiemy kompandowanie, musimy najpierw zrozumieć problem, który ono genialnie rozwiązuje. W standardowym systemie PCM stosuje się . Działa to dobrze dla sygnałów o jednolitym rozkładzie, ale jest bardzo nieefektywne dla sygnałów o wysokim , takich jak ludzka mowa.

Wyobraźmy sobie nagrywanie rozmowy, która obejmuje zarówno szept, jak i krzyk. Kwantyzacja liniowa używa tej samej wielkości kroku dla obu. Dla głośnego krzyku błąd kwantyzacji jest niewielki w stosunku do amplitudy sygnału i ledwo zauważalny. Jednak dla cichego szeptu ten sam błąd może być równie duży co sam sygnał, poważnie degradując jego jakość i sprawiając, że brzmi on szumiąco. Ludzkie ucho jest znacznie bardziej wrażliwe na szumy w cichych fragmentach, co potęguje ten problem. Ten stały poziom błędu skutkuje słabym stosunkiem sygnału do szumu kwantyzacji (SQNR) dla sygnałów o małej amplitudzie.

Rozwiązanie: Kompandowanie

Kompandowanie to zbitka słów opisujących dwa etapy procesu: KOMpresja sygnału w nadajniku i jego eksPANDOWANIE (rozprężanie) w odbiorniku. Jest to proces nieliniowy, zaprojektowany w celu poprawy SQNR dla sygnałów o wysokim zakresie dynamiki, skutecznie rozwiązując problem kwantyzacji liniowej dla sygnałów takich jak głos.

Jak to działa?

Kluczową ideą jest manipulowanie zakresem dynamiki sygnału przed kwantyzacją. W nadajniku układ kompresora wzmacnia ciche sygnały (o niskiej amplitudzie) bardziej niż sygnały głośne (o wysokiej amplitudzie). To "ściska" ogólny zakres dynamiki, oddalając słabe części sygnału od progu szumu kwantyzacji. Ten skompresowany sygnał jest następnie kwantowany liniowo. W odbiorniku układ ekspandera wykonuje dokładnie odwrotną operację, tłumiąc ciche fragmenty bardziej niż głośne, aby przywrócić pierwotny zakres dynamiki.

Wizualizacja Procesu: Krzywa Kompresji

Nieliniowe zachowanie kompresora najlepiej zrozumieć, analizując jego funkcję przejścia, czyli krzywą kompresji. Wykres ten przedstawia zależność amplitudy wyjściowej od wejściowej.

Dla sygnału wejściowego $x$ i wyjściowego $y$ , system liniowy miałby postać $y=x$ . Krzywa kompresji ma jednak kształt logarytmiczny. Dla małych wartości wejściowych bliskich zera, nachylenie krzywej jest strome, co oznacza duże wzmocnienie. W miarę wzrostu amplitudy sygnału wejściowego, nachylenie staje się bardziej płaskie, co oznacza mniejsze wzmocnienie. Zapewnia to, że ciche dźwięki otrzymują znaczne wzmocnienie, podczas gdy głośne są utrzymywane w ryzach.

Globalne Standardy: Prawo A i Prawo µ

Aby zapewnić globalną interoperacyjność, ITU-T ustandaryzowało dwa główne algorytmy kompandowania do użytku w cyfrowych systemach telefonicznych.

Prawo A (A-law): Używane głównie w Europie i większości reszty świata. Zapewnia nieco bardziej liniowy odcinek dla sygnałów o bardzo niskim poziomie. Jego parametr kompresji wynosi $A=87,6$ .
Wzór prawa A dla znormalizowanego wejścia $|x|$ to:
$F(x) = \begin{cases} \frac{A|x|}{1+\ln(A)}, & |x| < 1/A \\ \frac{1+\ln(A|x|)}{1+\ln(A)}, & 1/A \le |x| \le 1 \end{cases}$
Prawo µ (µ-law): Używane w Ameryce Północnej i Japonii. Oferuje nieco większy zakres dynamiki niż prawo A. Jego parametr kompresji wynosi $\mu=255$ .
Wzór prawa µ dla znormalizowanego wejścia $|x|$ to:
$F(x) = \frac{\ln(1+\mu|x|)}{\ln(1+\mu)}$

Implementacja Cyfrowa: Aproksymacja Odcinkowo-Liniowa

Implementacja gładkiej krzywej logarytmicznej w sprzęcie cyfrowym jest skomplikowana. W praktyce, krzywe prawa A i µ są aproksymowane przez serię segmentów liniowych. Na przykład, standard prawa A jest często implementowany przez mapowanie 12-bitowego liniowego sygnału PCM na specjalny 8-bitowy format skompandowany.

Zakres sygnału jest podzielony na segmenty (np. 8 dodatnich i 8 ujemnych dla prawa A). Segmenty blisko zera są bardzo wąskie, co oznacza bardzo małe kroki kwantyzacji (wysoka precyzja dla cichych dźwięków). W miarę wzrostu amplitudy sygnału, segmenty stają się coraz szersze, używając większych kroków dla głośniejszych dźwięków, gdzie błąd jest mniej zauważalny.

Format 8-bitowego Słowa Skompandowanego

Wynikowe 8-bitowe słowo w sprytny sposób koduje tę informację:

1 bit: Bit znaku (dodatni lub ujemny).
3 bity: Identyfikator segmentu (do którego z 8 segmentów wpadła próbka).
4 bity: Konkretny poziom kwantyzacji (jeden z 16) wewnątrz danego segmentu.

Rezultat: Drastyczna Poprawa Wydajności

Dzięki zastosowaniu kompandowania, 8-bitowy system PCM może osiągnąć dla mowy zakres dynamiki i SQNR porównywalny z 12- lub 13-bitowym systemem liniowym PCM. Ten ogromny wzrost wydajności umożliwił powstanie cyfrowego kanału głosowego o przepływności 64 kb/s.

8000 próbek/sekundę × 8 bitów/próbkę = 64 000 bitów/sekundę (64 kb/s)

Ta przepływność 64 kb/s stała się fundamentalnym elementem globalnych cyfrowych sieci telefonicznych (jak ISDN) i położyła podwaliny pod nowoczesną komunikację cyfrową.