На головну

Основні алгоритми кодування мови, що використовуються в IP-телефонії

  1. D) основні ознаки права.
  2. I. Основні богословські положення
  3. I. Основні завдання та напрямки роботи бібліотеки
  4. I. Основні положення
  5. I. Основні поняття математичної теорії ПОЛЯ
  6. I. Основні поняття УПРАВЛІННЯ ТА АВТОМАТИЗОВАНИХ СИСТЕМ ОБРОБКИ ІНФОРМАЦІЇ ТА УПРАВЛІННЯ
  7. I. Основні рахунки

В першу чергу необхідно зрозуміти, якими критеріями потрібно керуватися при виборі «хорошого» кодекадля використання в IP-телефонії.

Використання смуги пропускання каналу

Швидкість передачі, яку передбачають наявні сьогодні вузькосмугові кодеки, лежить в межах 1.2 - 64 Кбіт / с. Природно, що від цього параметра прямо залежить якість відтворної мови. Існує безліч підходів до проблеми визначення якості. Найбільш широко використовуваний підхід оперує оцінкою MOS (Mean Opinion Score), яка визначається для конкретного кодека як середня оцінка якості великою групою слухачів за п'ятибальною шкалою. Для прослуховування експертам пред'являються різні звукові фрагменти - мова, музика, мова на тлі різного шуму і т.д. Оцінки інтерпретують наступним чином:

- 4-5 - висока якість; аналогічно якості передачі мови в ISDN, або ще вище;

- 3.5-4- якість ТфОП (toll quality); аналогічно якості мови, переданої за допомогою кодека АДИКМ при швидкості 32 Кбіт / с. Така якість зазвичай забезпечується в більшості телефонних розмов. Мобільні мережі забезпечують якість трохи нижче toll quality;

- 3-3.5- якість мовлення, як і раніше, задовільно, однак його погіршення явно помітно на слух;

- 2.5-3 - мова розбірлива, проте вимагає концентрації уваги для розуміння. Така якість зазвичай забезпечується в системах зв'язку спеціального застосування (наприклад, в збройних силах).

В рамках існуючих технологій якість ТфОП (toll quality) неможливо забезпечити при швидкостях менше 5 Кбіт / с.

Придушення періодів мовчання (VAD, CNG, DTX)

При діалозі один його учасник говорить, в середньому, лише 35 відсотків часу. Таким чином, якщо застосувати алгоритми, які дозволяють зменшити обсяг інформації, що передається в періоди мовчання, то можна значно звузити необхідну смугу пропускання. У двосторонньому розмові такі заходи дозволяють досягти скорочення обсягу інформації, що передається до 50%, а в децентралізованих багатоадресних конференціях (за рахунок більшої кількості носіїв) - і більше. Немає ніякого сенсу організовувати багатоадресні конференції з числом учасників більше 5-6, не пригнічуючи періоди мовчання. Технологія придушення таких періодів має три важливі складові.

Потрібно відзначити, що визначення меж пауз в мові дуже істотно для ефективної синхронізації передавальної і приймальні сторін: приймач може, трохи змінюючи тривалості пауз, виробляти підстроювання швидкості відтворення для кожного окремого сеансу зв'язку, що виключає необхідність синхронізації тактових генераторів всіх елементів мережі, як це має місце в ТМЗК.

Детектор мовної активності (Voice Activity Detector - VAD) необхідний для визначення періодів часу, коли користувач говорить. Детектор VAD повинен володіти малим часом реакції, щоб не допускати втрат початкових слів і не упускати даремні фрагменти мовчання в кінці речень; в той же час детектор VAD не повинен спрацьовувати від впливу фонового шуму.

Детектор VAD оцінює енергію вхідного сигналу і, якщо вона перевищує певний поріг, активізує передачу. Якби детектор відкидав всю інформацію до моменту, поки енергія сигналу не стала вище порога, то відбувалося б відрізання початкової частини періоду активності. Тому реалізації VAD вимагають збереження в пам'яті кількох мілісекунд інформації, щоб мати можливість запустити передачу до початку періоду активності. Це збільшує, в деякій мірі, затримку проходження сигналу, проте її можна мінімізувати або звести до нуля в кодерах, що працюють з блоками відліків.

Підтримка переривчастої передачі (Discontinuous Transmission -DTX) дозволяє кодеку припинити передачу пакетів в той момент, коли VAD виявив період мовчання. Деякі найбільш досконалі кодери не припиняють передачу повністю, а переходять в режим передачі набагато меншого обсягу інформації (інтенсивність, спектральні характеристики), потрібної для того, щоб декодер на віддаленому кінці міг відновити фоновий шум.

Генератор комфортного шуму (Comfort Noise Generator - CNG) служить для генерації фонового шуму. У момент, коли в мові активного учасника бесіди починається період мовчання, термінали слухають можуть просто відключити відтворення звуку. Однак це було б нерозумно. Якщо в трубці виникає «гробова тиша», тобто фоновий шум (шум вулиці і т.д.), який було чути під час розмови, раптово зникає, то слухає здається, що з'єднання з якихось причин порушилося, і він зазвичай починає запитувати, чи чує його співрозмовник.

Генератор CNG дозволяє уникнути таких неприємних ефектів. Найпростіші кодеки просто припиняють передачу в період мовчання, і декодер генерує жодного галасу з рівнем, рівним мінімальному рівню, зазначеному в період мовної активності. Більш досконалі кодеки (G.723.1 Annex A, G. 729 Annex В) мають можливість надавати віддаленого декодера інформацію для відновлення шуму з параметрами, близькими до фактично спостерігався.

Розмір кадру

Більшість вузькосмугових кодеків обробляє мовну інформацію блоками, званими кадрами (frames), і їм необхідно здійснювати попередній аналіз відліків, що прямують безпосередньо за відліками в блоці, який вони в даний момент кодують.

Розмір кадру важливий, так як мінімальна теоретично досяжна затримка передачі інформації (алгоритмічна затримка) визначається сумою цього параметра і довжини буфера попереднього аналізу. Насправді процесори цифрової обробки сигналів, які виконують алгоритм кодування, мають кінцеву продуктивність, так що реальна затримка сигналу більше теоретичної.

Можна, здавалося б, зробити висновок, що кодеки з меншим розміром кадру краще в сенсі такого важливого критерію як мінімізація затримки. Якщо, проте, врахувати, що відбувається при передачі інформації по мережі, то ми побачимо, що до кадру, сформованому кодеком, додається безліч додаткової інформації - заголовки IP (20 байтів), UDP (8 байтів), RTP (12 байтів). Для кодека з тривалістю кадру 30 мс посилка таких кадрів по мережі привела б до передачі надлишкової інформації зі швидкістю 10.6 кбіт / с, що перевищує швидкість передачі мовної інформації у більшості вузькосмугових кодеків.

Тому зазвичай використовується пересилання декількох кадрів в пакеті, при цьому їх кількість обмежена максимально допустимої затримкою. У більшості випадків в одному пакеті передається до 60 мс мовної інформації. Чим менше тривалість кадру, тим більше кадрів доводиться упаковувати в один пакет, тобто затримка визначається зовсім не довжиною кадру, а практично прийнятним обсягом корисного навантаження в пакеті.

Крім того, кодеки з більшою довжиною кадру більш ефективні, так як тут діє загальний принцип: чим довше спостерігається явище (мовний сигнал), тим краще воно може бути змодельоване.

Чутливість до втрат кадрів

Втрати пакетів є невід'ємним атрибутом IP-мереж. Так як пакети містять кадри, сформовані кодеком, то це викликає втрати кадрів. Але втрати пакетів і втрати кадрів не обов'язково безпосередньо пов'язані між собою, так як існують підходи (такі як застосування кодів з виправленням помилок -forward error correction), що дозволяють зменшити число втрачених кадрів при даному числі втрачених пакетів. Вимагається для цього додаткова службова інформація розподіляється між кількома пакетами, так що при втраті деякого числа пакетів кадри можуть бути відновлені.

Однак позитивний ефект від введення надмірності для боротьби з втратами пакетів не настільки легко досяжний, оскільки втрати в IP-мережах відбуваються пачками, тобто значно більш імовірно те, що буде втрачено відразу кілька пакетів поспіль, ніж те, що втрачені пакети розподіляться в послідовності переданих пакетів по одному. Так що якщо застосовувати прості схеми введення надмірності (наприклад, повторюючи кожен кадр в двох послідовно передані пакети), то в реальних умовах вони, хоча і збільшать обсяг надлишкової інформації, але, швидше за все, виявляться марними.

Крім того, введення надмірності негативно позначається на затримці відтворення сигналу. Наприклад, якщо ми повторюємо один і той же кадр в чотирьох пакетах поспіль, щоб забезпечити можливість відновлення інформації при втраті трьох поспіль переданих пакетів, то декодер змушений підтримувати буфер з чотирьох пакетів, що вносить значну додаткову затримку відтворення.

Вплив втрат кадрів на якість відтворної мовлення залежить від використовуваного кодека. Якщо втрачений кадр, що складається з N мовних відліків кодека G.711, то на приймальному кінці буде відзначений пропуск звукового фрагмента тривалістю М * 125 мкс. Якщо використовується більш досконалий вузькосмуговий кодек, то втрата одного кадру може позначитися на відтворенні кількох наступних, так як декодера буде потрібно час для того, щоб досягти синхронізації з кодером - втрата кадру тривалістю 20 мс може призводити до чутному ефекту протягом 150 мс і більше.

Кодери типу G.723.1 розроблені так, що вони функціонують без істотного погіршення якості в умовах некоррелірованних втрат до 3% кадрів, однак при перевищенні цього порога якість погіршується катастрофічно.

 



Процесори цифрової обробки сигналів для мовних кодеків | Кодеки, стандартизовані ETSI

Глава 3 Передача мови по IP-мереж | затримки | Пристрої обмеження ефектів луни | Принципи кодування мови | Кодування форми сигналу | Кодери вихідної інформації (вокодер) та гібридні алгоритми | Передача сигналів DTMF | Передача факсимільного інформації |

© um.co.ua - учбові матеріали та реферати