POLQA 객관적 음질측정의 진화

Written by JoonPapa on . Posted in Audio/Speech Util, mVoIP, Speech Coding

PESQ to POLQA : 객관적 음질측정의 진화

주관적 음질 측정 방식은 실제 음성 신호를 사람들이 들어보고 주관적으로 느끼는 음질을 평가하기 때문에 직접 반영되어 신뢰성이 높은 반면, 시간과 비용이 많이 들고 자주 반복적인 실험을 할 수 없고 주관적 음질 측정에 참여하는 평가자들의 성향과 환경에 따라서 음질의 평가 결과가 편향되는 결과를 나올 수 도 있기 때문에 공인된 단체에서 정확한 절차를 거치지 않은 주관적 음질 측정 결과에 대한 신뢰도를 의심하는 경우도 많이 있습니다.

이를 해결하기 위해 주관적 음질 평가 방법은 원음성 신호와 압축-복원이나 전/후처리등을 통해서 음질이 나빠진 음성 신호을 가지고 주관적 음질 측정 결과에 가장 유사한 결과를 추정할 수 있도록 하는 지표를 만들기 때문에  아주 정확하지는 않지만 개괄적으로 음성 통신 시스템의 음질을 benchmarking하는데 많이 사용되고 있습니다.

객관적 음질 평가를 위해서 ITU-T에서 그 표준을 제정했는데 PSQM (Perceptual Speech Quality Measure,  ITU-T Rec. P.861, 1996), PEAQ (Perceptual Evaluation of Audio Quality, ITU-R Rec. BS.1387, 1999), PESQ (Perceptual Evaluation of Speech Quality, ITU-T Rec. P.862, 2000), 3SQM(2004), POLQA (Perceptual Objective Listening Quality Assessment, ITU-T Rec. P.863, 2010)  등이 있습니다.

객관적 음질 평가 방식 중 가장 대표적인 것이 PESQ로  관련 제품이 20,000개 이상  출시되어 있습니다. 하지만, PESQ가 설계된 1990년대에는  VoLTE의  HD-Voice 서비스와 같은 광대역 (Wideband, 100Hz – 7,000Hz) 음성 코덱이나 음성 통신 서비스를 고려하지 않고 협대역 (300Hz – 3,400Hz) 음성 통신 서비스만을 고려했기 때문에 협대역 음성 신호 위주로  객관적 음질 평가 표준을 제정하였습니다.  즉,  기존 PESQ( P.862)에서는  MOS 값이 협대역 음성 신호를 기준으로  4.5이었기 때문에 보다 음성 주파수의 대역이 확장된 HD-Voice 서비스와 같이 새로운 형태의 음성 신호의  품질을 평가 하기에는  기존의 PESQ 방식이 적합하지 않았습니다.  이를 해결하기 위해 새로운 객관적 음질 평가 기준이 통신업계에서 요구하게 되었고 Superwideband(50Hz – 14,000Hz) 음성 신호까지 음질을 측정이 가능한  POLQA가 개발되었습니다. POLQA 는 PESQ를 계승한 ITU-T P.863 표준으로 HD-Voice, 3G/4G/LTE, VoIP의 전송 특성과음성 주파수 대역폭의 확장을 고려하여 개발되었습니다.  POLQA의 경우에는 PESQ와 같은 MOS값이 아니라 주파수 대역폭에 따라서 Super wideband 는 4.8, Wideband는 4.5, PCM은 3.8의 MOS 값의 기준을 설정하였습니다.

ITU-T P.863 POLQA 알고리듬은 두 가지 모드 지원합니다. 하나는 PESQ를 대체하는 협대역 전화 모드와 Super-Wideband 통신 모드 입니다.  다음 표는 POLQA에서 기대할 수 있는 전형적인 MOS값들을 나타냅니다.  주관적인 음질 실험을 통해서 이런 사실들을 검증했습니다.
기존의 PESQ를 대체하는 협대역 모드와 Superwideband 통신 모드에서의 POLQA의 MOS값은 아래 그림/표와 같이 연관되어 있습니다.

원음의 주파수 대역

압축 방식


Narrowband 모드에서
POLQA MOS 값

Superwideband 모드에서
POLQA MOS 값

Superwideband (50~14000Hz) 음성 신호

왜곡없이 원음 전송

4.8

Wideband (50~7000Hz) 음성 신호

왜곡없이  원음 전송

4.5

AMR-WB 12.65kbps

4.0

Narrowband(300~3400Hz) 음성 신호

왜곡없이 원음 전송

4.5

3.8

G.711A 64kbps

4.3

3.7

AMR-FR 12.2kbps

4.1

3.6

EVRC 9.5 kbps

3.9

3.4