Text to Speech

3.1. 대한민국3.2. 해외

4. 사용 사례

1. 개요

줄임말로는 TTS, 한국어로는 '음성합성( 音聲合成)'이라 부른다. 보통 TTS라고 하면 이것을 의미한다. 컴퓨터의 프로그램을 통해 사람의 목소리를 구현해내는 것으로, 성우 없이도 거의 모든 단어와 문장의 음성을 쉽게 구할 수 있다. 하지만 사전녹음된 목소리 자료를 기반으로 쓰는 만큼 억양이 자연스럽지 못하다는 단점이 있다.

2. 특징

시각장애인의 접근성을 향상시키기 위해 개발되었다. 기사

해외에서는 리드스피커와 브라우저어라우드와 같이 웹기반 서비스 솔루션이 웹사이트를 읽어주는 TTS 프로그램으로 대중화되었다. 일본에서는 지방자치단체 홈페이지의 70% 이상이 TTS 음성서비스를 제공한다. 한국에선 다양한 TTS 프로그램 제공업체 중 웹톡스, 보이스몬과 같이 웹기반 서비스와 솔루션을 함께하는 프로그램들이 각광받는다.

VOCALOID(보컬로이드)와 비슷하다고 생각할 수 있다. 하지만 보컬로이드는 소리, 억양 하나하나를 유저가 직접 이어붙여서 만드므로 복잡하지만, TTS는 글자를 입력하면 쉽게 바로 음성으로 출력된다는 차이점이 있다. 물론 그만큼 TTS는 발음과 억양이 부자연스럽다는 단점도 있다. 보컬로이드의 경우는 가상의 목소리로 '노래'를 부르게 만드는 물건이라 음계와 박자까지 일일이 하나하나 맞춰야해서 복잡할 수밖에 없다. 일반적인 글자 낭독은 이렇게까지 할 필요가 없다는 차이점이 있어서 보컬로이드는 TTS와 별개로 보는 시각이 대부분이다. 물론 보컬로이드 역시 TTS와 음악을 합치는 발상에서 출발한 개념이기는 하다.

하지만 몇몇 TTS는 꽤나 자연스럽고 부드럽게 목소리를 출력한다. 알파고를 발표한 구글 딥마인드 산하의 WaveNet(웨이브넷)은 딥러닝 기반의 TTS 시스템으로, 연구를 거듭한 결과 성우가 직접 읽은 문장보다도 더욱 자연스러운 문장을 구사할 수 있게 되었다. 실제로 목소리를 비교해보면 어느 것이 성우의 목소리이고, 어느 것이 TTS인지 구별할 수 없을 정도이다. 심지어 별다른 입력 없이 무작위한 발음을 중얼거리게 만들 수도 있는데, 분명 이해할 수 없는 문장임에도 불구하고, 실제 사람의 중얼거림처럼 호흡과 간격이 매우 자연스럽다. 기사, 기사 2

단, 대부분 TTS는 개인 고객에게 제품을 팔지 않기 때문에, 개인이 TTS를 사용하려면 어둠의 경로에서 구해야 하는 경우가 대부분이다. 혹시나, 구매한다고 해도, 수천만원 이상을 호가한다.

TTS는 3가지 요소로 구성된다. 첫째가 SAPI라는 윈도우 구성요소, 둘째가 보이스 엔진, 셋째가 플레이어다. 비디오 플레이어에 비유하면 차례대로 SAPI는 운영체제 그 자체, 보이스 엔진은 코덱쯤, 플레이어는 말 그대로 플레이어이다. SAPI는 대체로 윈도우를 깔면 자동으로 깔려있다. 제어판을 뒤적거려본 유저라면 알 수 있는데, 제어판 → 접근성 → 접근성 센터 → 디스플레이가 없는 컴퓨터 사용에 들어가보면, 텍스트 음성 변환 이라는 항목이 있다. 이 창을 띄워보면 한 줄 문장을 작성하고 음성 선택을 하는 곳이 있는데, 바로 이것이 TTS의 기본 구성 원리다.

Microsoft Heami Desktop - Korean이라고 나와있을 텐데, 이것이 SAPI 5.1 버전용 보이스 엔진인 혜미다. 이 제어판 항목에서는 긴글을 입력하지 못하지만, 바로 플레이어들을 이용하여, 긴 단락들을 읽어줄 수 있는 것이다. 예시는 Windows 8.1 기준으로, Windows XP는 Microsoft Sam, Windows Vista와 Windows 7은 Microsoft Anna가 존재한다. Windows 10의 경우에는 Windows 8.1과 동일하지만, 다른 언어 입력기를 설치하면 음성 데이터와 언어팩도 같이 설치되기 때문에 쉽게 변경이 가능하다.

대부분 TTS 플레이어들 자체[1]는 프리웨어인 경우가 많고, 사실상 TTS의 핵심이라고 할 수 있는 엔진[2]이 유료로 판매되는 핵심 파일이다. 한국어 엔진 중 가장 유명한 게 Junwoo(준우)와 Yumi(유미)다. 기본으로 윈도우에 깔린 혜미 같은 엔진들은 매우 기계적이어서 많이 듣기에 부자연스럽기 때문에, 대부분 따로 엔진을 구해야 만족스러운 결과가 나온다.

플레이어로 쉽게 구할 수 있는 것은 판옵프리터(Panopreter), 발라볼카(Balabolka), 텍스트얼라우드(TextAloud) 등이 있다. 앞의 두 개는 프리웨어, 텍스트 얼라우드는 유료이다.

판옵프리터는 가장 프로그램이 가볍지만, 텍스트 분량이 너무 많으면 한꺼번에 읽을 수는 없다. 또한 중간부터 읽을 수가 없어서 항상 처음부터 읽어야 한다. 발라볼카의 장점은 자신의 PC에 깔린 엔진뿐만 아니라, 구글 번역기의 TTS엔진까지 사용해서 음성파일을 만들 수 있다는 것이다. 다만 프로그램이 무겁고, 굳이 음성파일을 만들지 않고 프로그램 내부에서 즉흥적으로 들을 경우, 문장 하나하나마다 앞부분의 음성이 약해지는 현상이 나타나 매우 듣기가 괴롭다. 마지막으로 텍스트 얼라우드는 프로그램도 무겁지 않고, 중간부터도 들을 수 있으며, 글의 맨 처음만 약해질 뿐 다른 곳은 다 그대로이다. 단점이라고는 유료라는 점뿐. 위 세 프로그램 모두 당연하게도 음성파일로 변환할 수 있다. 기본적으로 wav파일로 나오지만, 추가 설정을 통해 mp3로 바로 변환시켜줄 수도 있다.

한국어로 맞춰놓고 영어를 쓰면 콩글리시를 들어볼 수 있다. 마찬가지로 영어 이외의 언어로 설정하고 영어를 쓰면 해당 국가의 억양이 들어간 영어 음성이 나온다. TTS 프로그램 중 영어 음성 전문 더빙이 가능한 서비스는 타입캐스트이며, 이를 위한 외국인 인공지능 성우 캐릭터가 마련되어 있다.

감정과 음 높낮이, 길이도 조절하여 딥 러닝으로 합성가능한 TTS 프로그램도 나오기 시작했다. 기사

자신의 목소리로 TTS를 만들 수는 있지만 번거롭고 시간이 많이 걸리는 편이다. 링크

성우들의 일자리를 빼앗는 게 아니냐는 말이 있다. 이런 현상은 AI와 관련된 모든 분야에서 일어나는 일로서, 딱히 성우들만 그런 것은 아니다. 물론 이 TTS도 무에서 시작할 수는 없으니 목소리를 제공하고 로열티를 받는 등 여러 대안과 사회적 합의가 있을 수 있을 것이다. 실제로 성우가 연기한 목소리를 TTS화시키면 저작권자가 작품 이미지 손상을 심각하게 입었거나 계약 당사자에게로 향할 피해가 심할 거라 판단했을 경우 법적 권리를 행사할 수도 있다. IT 회사가 성우에게 음성 저작권 영구 양도를 요구하는 사례가 문제라는 성우계의 시각도 있는데 사실 비용을 지불하는 회사가 외주 결과물에 대해 저작권을 가져가는 것 자체가 잘못된 것은 전혀 아니다. 이미 많은 분야, 많은 기업에서 그렇게 하고 있다. 물론 꼭 가져가야 되는 것도 아니지만 말이다. 문제의 핵심은 계약서를 작성하지 않는 관행이나 계약 내용이 정형화되지 않은 것 같은 부분들이다. 이는 기업과 직능단체라는 이익집단간의 협상과 견제, 그리고 행정당국의 감독과 입법적 조치로서 해결할 일인 것이다.

일본에서는 니코니코동화를 시작으로 TTS 실황 플레이가 유행했다. vds로 닌텐독스를 플레이 할경우 몇몇 목소리를 들려주면 강아지들이 좋아하면서 달려온다. 북한의 김정은과 리춘희 목소리를 tts로 변환한것도 있다.

2018년에는 TTS로 성대모사까지 한다. 기사. 그 후 유튜브에서도 유명 유튜버의 목소리로 AI를 학습시켜 TTS로 변환한 패러디 영상이 가끔 올라온다. 예시

3. 종류 및 사이트

자세한 내용은 분류:음성 합성 엔진 문서 참고하십시오.

3.1. 대한민국

가나다순, 서비스(회사명)으로 기재한다.

Acoust AI( 딥브레인AI): SaaS, TTS, Voice Cloning, AI writer.
AISTUDIOS( 딥브레인AI): SaaS 기반의 TTS, TTV(Text to Video). 2021년 CES 2021에서 혁신상을 받았다.
TTS Maker(제이에이치엘): 자신의 목소리를 TTS로 만들어주는 윈도우 앱이다.
리드스피커코리아: 구 보이스웨어, USS TTS, DNN TTS.
보이스몬(수지소프트): 노인, 저시력시각장애인, 인지장애인 등을 위해 웹사이트를 TTS를 이용해 읽어주는 스크린 리더 기능과 고대비 색상반전 기능, 텍스트/화면 확대 기능, 하이라이트 기능 등을 갖춘 웹 접근성 서비스를 겸하는 TTS 프로그램.
비디오스튜
삼성 TTS: 전자사전에 쓰인 Diotek TTS의 OEM판. 신분당선에서 안내방송에 사용되는 TTS도 이 회사 제품. 다만 삼성 TTS의 상업적 사용은 금지되어 있다. 기본적으로 갤럭시 시리즈에만 탑재되는 TTS다. 그러나 그 어느 제조사도 장기적출을 시도하는 사람들을 피할 수는 없다 보니, 결국 이 물건도 맛클의 한 유저에 의해 적출당해서 타사 폰으로 신나게 이식된다. 심지어 루팅을 안 해도 정상적으로 설치되도록 마개조까지 가해놓았다.
셀바스AI
온에어스튜디오(라이언로켓): PPT, PDF, TXT를 업로드해 TTS, TTV를 한다.
웹톡스: 온라인 기반 서버 TTS 솔루션으로 다양한 웹사이트와 모바일서비스를 간단한 코드 삽입만으로 TTS를 이용해 읽어 줄 수 있도록 해주는 TTS 프로그램 솔루션. 20개국 40개 이상의 TTS 목소리로 제공되어 다국어 서비스가 필요한 모든 영역에 도움을 제공한다.
위메이크보이스
코난보이스: 공교롭게도 명탐정 코난의 코난이 나비 넥타이 형 음성 변조기를 쓰는 것을 떠오르게 한다.
클로바 더빙( 네이버 클로바)
타입캐스트( 네오사피엔스)
~~프로소디(휴멜로)~~ 서버 종료

3.2. 해외

구글 TTS(모바일)
oddcast
마이크로소프트 샘: 윈도우 XP 제어판에 있던 일명 샘아저씨 목소리로 윈도우 XP의 지원이 종료되고 더 이상 사용하지 않게 되면서 그것을 보존하기 위해 사이트가 만들어졌다.
마이크로소프트 Azure
소프토크
아마존 폴리: 현재 영어, 일어, 불어, 스페인어 등을 지원하며 한국어도 제한적으로 지원한다. 서연(일반/신경망) 지원.
아카펠라 그룹
A.I.VOICE
CeVIO(기능 중 일부): 크게 '토크 보이스'와 '송 보이스'으로 나누어져있으며 그 중 '토크 보이스'가 TTS에 해당한다.
CoeFont: 개인이 스스로 자신의 목소리를 AI로 제작할 수 있다. 가격은 500~1000엔이며 월정액제로 운영한다.

알리얼(Allial, 쌍둥이 언니)&밀리얼(Millial, 쌍둥이 여동생, 일러스트레이터 나기시로 미토): 쌍둥이 자매다 보니 코토노하 자매랑 비슷한 복장을 입은 2차 창작도 나왔다. 예시. 2차 창작과 TTS 실황 플레이에 사용가능하나 영리 이용이 금지다. 인터넷 방송에서 쌍둥이를 사용한 영상에 광고를 달거나 후원을 받는 것이 불가능하다는 것이다.
아베루니(Averuni, アベルーニ): 남캐 TTS. 차분하고 안정적인 미성이 특징이다. 링크
카넬(Canel, カネル): 2023년 10월 30일에 추가된 캐릭터. 음성 제공자는 모리카와 토시유키.

Elevenlabs(일레븐랩스)[3]: 영어 TTS로는 매우 자연스럽고 독보적인 TTS. 해외 유튜버들 TTS는 대부분 일레븐 랩스에서 만들어낸다고 말해도 과언이 아니다. 링크
FakeYou(구 VOcodes): 서브컬처 속 캐릭터와 배우의 목소리를 사용하는 TTS. 오픈 소스이기 때문에 무료이고 사람들이 자유롭게 인공지능이 학습한 목소리를 올려서 그런지 목소리 수가 많다. 링크, 링크 2, 영상
From Text to Speech: 가입해야 한다.
Lovo: 가입해야 한다.
Lyrebird: 가입해야 한다.
Natural Reader: 더 많은 목소리를 사용하는 것은 유료이다.
Nuance
Online Tone Generator
Play.ht
Replica: 가입해야 한다.
Resemble.ai: 가입해야 한다.
Robot Voice Generator: 로봇 목소리만 가능하다.
TTS Reader
UberDuck: FakeYou와 마찬가지로 서브컬처 속 캐릭터와 배우의 목소리를 사용한다. 무료인 대신에 가입을 해야 한다. 링크
Verbose: 호주 기업인 NCH Software에서 나온 프로그램이다. 전부 영어로 되어 있으며, Windows에서만 작동하는 데다가 유료라는 한계가 있다.
VOCALOID(보컬로이드): 사실 선술했듯이 보컬로이드를 비롯한 보컬 합성 엔진들은 일반적인 TTS라기보다는 가상 보컬 프로그램이라고 별도로 구분해서 보는게 좋다.
VoiceGenerator.io
VoiceOver: '설정 > 손쉬운 사용 > 콘텐츠 말하기'에서 애플이 제공하는 수백 가지 음성을 다운로드할 수 있다. 단축어 앱에서 다운로드한 음성으로 오디오 파일을 생성해 저장할 수 있다.
VOICEROID
VOICEVOX: 도호쿠 즌코의 즌다몬과 시코쿠 메탄을 TTS화한 곳.
15.ai: 서브컬처 속 캐릭터를 사용하는 TTS 중 특이하게도 타 TTS과 혼동되는 것을 방지하기 위해 프로젝트 하나에 타 TTS와 혼용할 수 없다는 제약이 붙어 있다. FakeYou와 UberDuck보다 음성 합성 속도와 음성 출력 품질 등이 좋은 대신 목소리 수는 적다. 링크

4. 사용 사례

콜센터의 안내음성
기상청 일기예보 안내(ARS)서비스(131)
횡단보도의 안내음성
각 포털 사이트의 기계 번역
내비게이션: 간혹 독특한 음성을 위해 사전 녹음된 것을 사용하기도 하나 이경우에도 교차로 이름 등은 TTS로 처리한다.
대부분의 지방 시내버스 안내방송: 삼원FA(마이비)를 쓰는 곳은 유미나 혜련을 주로 사용하며(어떤 곳은 유미와 혜련을 혼용해서 사용한다.), 그 외 지역은 셀바스TTS를 사용하는 것 같다.
한국철도공사 기차역의 KSBS 시스템에 사용된다. 대표적인 예로 열차 도착 안내 방송이 있다.
한국철도공사 누리로, 무궁화호 열차의 서원주역, 북울산역, 경주역 도착시 차내 자동방송
한국철도공사 소속 광역전철, 신분당선, 부산김해경전철 안내방송
KBS 2FM 라디오 방송의 DJ 윌슨.
동아일보: 뉴스를 한국어/영어/일본어/중국어로 읽어 준다.
코리아타임즈: 영어 뉴스를 웹과 모바일앱에서 읽어 준다.
한때 미디어 다음에서 손석희의 목소리로 댓글을 읽어주는 서비스를 제공했다. 별도의 녹음 과정을 거치지 않고 뉴스룸 영상 1년분을 이용해 데이터를 추출한 것이 특징으로 상당히 자연스러운 음성을 제공했다.
난수방송: 대한민국의 난수방송과 북한의 난수방송 등. 보안상의 이유로 성우를 잘 쓰지 않는다.
디시인사이드 합필갤에선 이호성의 목소리를 내기 위해 당시 보이스웨어 준우 목소리를 느리게 변조해 사용하기도 했다. 물론 실제 이호성의 목소리와는 무관하다.
스크린 리더
트위치, 아프리카TV 등 인터넷 방송 플랫폼에서 사용되는 음성 도네이션: 후원을 하면 후원자의 인사말을 읽어주는 바로 그 목소리. 트윕이나 투네이션 모두 구글 TTS에서 제공하는 목소리밖에 없었지만 보이스웨어, 타입캐스트 등 다른 TTS와도 이용계약을 맺으면서 리드스피커코리아의 씩씩한강모( 재민이), 타입캐스트의 찬구 등 다양한 목소리를 쓸 수 있게 되었다. 아프리카TV에선 도네이션이란 표현보단 주로 전자녀, 전자계집이라 불린다. 스트리머들도 목 상태가 안 좋을 때 방송진행 음성으로 사용하는데 이와 같은 약빤 편집 영상이 나오기도 한다. 영상, 영상2

병신TV: 대부분 흔히 재민이라 부르는 리드스피커코리아(보이스웨어)의 씩씩한강모 음성으로 대사를 처리한다.

음성 인식 비서 서비스

Siri: 애플 특성상 상술한 보이스오버 기반이다.

일본 방재행정무선 설비 상당수: 방재행정무선 설비들이 디지털 설비로 갱신하면서 TTS 기능이 추가되었으며 사람이 직접 방송하거나 녹음하지 않아도 관련 프로그램에 안내방송 내용을 입력하면 TTS로 방송이 가능하다.
스티븐 호킹의 목소리: 루게릭병과 폐렴의 합병증으로 인해 기관지 절개 수술과 목에 플라스틱 호흡 장치를 삽입해서 자기 스스로의 목소리를 내지 못하기 때문에 인텔의 후원을 받아 대신 사용했다. 다만 본인은 TTS가 미국 영어밖에 지원하지 못해서 자신의 용인발음을 사용하지 못하는 게 맘에 들지 않는다고 했다[4].
가면라이더 제로원: 변신 시퀸스 마지막에 나오는 영어 음성으로 TTS를 사용했다. 링크
동물의 숲 시리즈: 게임 내에 등장하는 동물주민들의 목소리를 만드는 데 사용된다. TTS를 그대로 쓰지는 않고 화면에 표시될 대사를 철자단위로 약간씩 변형한 텍스트를 TTS가 읽게 하고 이를 변조해서 빠르게 재생한다.
비디오스튜: 비디오스튜는 웹 기반의 동영상 제작 툴로 다양한 TTS 엔진을 연동해서 서비스로 제공하고 있다. 현재 네이버 클로바, 아마존 폴리, 마이크로소프트 애저를 적용하고 있다.
친구모아 아파트: 주민들의 목소리
Geno's Forest: XBrav가 슈퍼 마리오 RPG 꽃충이 숲 음악에 가사를 붙였다.
NHK 뉴스: 앵커가 주요 뉴스를 읽은 후 나머지 뉴스를 TTS 자동음성으로 읽어준다.

[1] 용량이 30MB 정도이다. [2] 용량이 200~500MB 정도다 [3] 문서와는 달리 엘더스크롤의 모드가 아니라 AI 툴이다. [4] 물론 스티븐 호킹이 워낙에 외향적이고 유쾌한 성격이라서, 이는 진정으로 불평하는 게 아니라 단순히 자신의 고급스런 용인발음이 안 나와서 간지가 안 산다는 뉘앙스의 개그다. 실제로는 대중들에게 이런 목소리로 널리 알려진 탓에, TTS로 나오는 미국 영어 음성을 제일 마음에 들어했다.