음성 합성

기계적 음성 합성은 현재는 크게 concatenative synthesis와 formant synthesis로 나뉘어 있는 것 같다. 전자는 샘플(보통 diphong으로 녹음)을 짜맞춰서 음성을 만들고, 후자는 샘플로부터 파라미터만 추출해서 별도의 모델로 "생성"을 하는 것. 전자는 데이터베이스가 클 수록 자연스럽지만 데이터베이스를 크게 만들기 어렵고, 후자는 기계적인 음성을 피하기가 어렵다.

TTS를 구현하려면 음성 합성 말고도 자연어처리를 더 해야 한다.

도쿠위키와 DokuWiki-custom(rev 9085d92e02)을 씁니다.
마지막 수정 2011-05-30 18:25 | 외부 편집기