PESQ to POLQA : 객관적 음질측정의 진화

Written by JoonPapa on . Posted in Audio/Speech Util, mVoIP, Speech Coding

주관적 음질 측정 방식은 실제 음성 신호를 사람들이 들어보고 주관적으로 느끼는 음질을 평가하기 때문에 직접 반영되어 신뢰성이 높은 반면, 시간과 비용이 많이 들고 자주 반복적인 실험을 할 수 없고 주관적 음질 측정에 참여하는 평가자들의 성향과 환경에 따라서 음질의 평가 결과가 편향되는 결과를 나올 수 도 있기 때문에 공인된 단체에서 정확한 절차를 거치지 않은 주관적 음질 측정 결과에 대한 신뢰도를 의심하는 경우도 많이 있습니다. 이를 해결하기 위해 주관적 음질 평가 방법은 원음성 신호와 압축-복원이나 전/후처리등을 통해서 음질이 나빠진 음성 신호을 가지고 주관적 음질 측정 결과에 가장 유사한 결과를 추정할 수 있도록 하는 지표를 만들기 때문에  아주 정확하지는 않지만 개괄적으로 음성 통신 시스템의 음질을 benchmarking하는데 많이 사용되고 있습니다. 객관적 음질 평가를 위해서 ITU-T에서 그 표준을 제정했는데 PSQM (Perceptual Speech Quality Measure,  ITU-T Rec. P.861, 1996), PEAQ (Perceptual Evaluation of Audio Quality, ITU-R Rec. BS.1387, 1999), PESQ (Perceptual Evaluation of Speech Quality, ITU-T Rec. P.862, 2000), 3SQM(2004), POLQA (Perceptual Objective Listening Quality Assessment, ITU-T Rec. P.863, 2010)  등이 있습니다. 객관적 음질 평가 방식 중 가장 대표적인 것이 PESQ로  관련 제품이 20,000개 이상  출시되어 있습니다. 하지만, PESQ가 설계된 1990년대에는  VoLTE의  HD-Voice 서비스와 같은 광대역 (Wideband, 100Hz – 7,000Hz) 음성 코덱이나 음성 통신 서비스를 고려하지 않고 협대역 (300Hz – 3,400Hz) 음성 통신 서비스만을 고려했기 때문에 협대역 음성 신호 위주로  객관적 음질 평가 표준을 제정하였습니다.  즉,  기존 PESQ( P.862)에서는  MOS 값이 협대역 음성 신호를 기준으로  4.5이었기 때문에 보다 음성 주파수의 대역이 확장된 HD-Voice 서비스와 같이 새로운 형태의 음성 신호의  품질을 평가 하기에는  기존의 PESQ 방식이 적합하지 않았습니다.  이를 해결하기 위해 새로운 객관적 음질 평가 기준이 통신업계에서 요구하게 되었고 Superwideband(50Hz – 14,000Hz) 음성 신호까지 음질을 측정이 가능한  POLQA가 개발되었습니다. POLQA 는 PESQ를 계승한 ITU-T P.863 표준으로 HD-Voice, 3G/4G/LTE, VoIP의 전송 특성과음성 주파수 대역폭의 확장을 고려하여 개발되었습니다.  POLQA의 경우에는 PESQ와 같은 MOS값이 아니라 주파수 대역폭에 따라서 Super wideband 는 4.8, Wideband는 4.5, PCM은 3.8의 MOS 값의 기준을 설정하였습니다.
ITU-T P.863 POLQA 알고리듬은 두 가지 모드 지원합니다. 하나는 PESQ를 대체하는 협대역 전화 모드와 Super-Wideband 통신 모드 입니다.  다음 표는 POLQA에서 기대할 수 있는 전형적인 MOS값들을 나타냅니다.  주관적인 음질 실험을 통해서 이런 사실들을 검증했습니다.
기존의 PESQ를 대체하는 협대역 모드와 Superwideband 통신 모드에서의 POLQA의 MOS값은 아래 그림/표와 같이 연관되어 있습니다.

원음의 주파수 대역

압축 방식

Narrowband 모드에서 POLQA MOS 값

Superwideband 모드에서 POLQA MOS 값

Superwideband (50~14000Hz) 음성 신호

왜곡없이 원음 전송

4.8

Wideband (50~7000Hz) 음성 신호

왜곡없이  원음 전송

4.5

AMR-WB 12.65kbps

4.0

Narrowband(300~3400Hz) 음성 신호

왜곡없이 원음 전송

4.5

3.8

G.711A 64kbps

4.3

3.7

AMR-FR 12.2kbps

4.1

3.6

EVRC 9.5 kbps

3.9

3.4

Tags: , , , ,

Trackback from your site.

Leave a comment

You must be logged in to post a comment.