1. 개요
인공지능을 사용하여 기존 노래의 보컬을 다른 인물의 목소리로 바꾸는 것이다.2. 역사
타인이 다른 사람의 노래를 커버하여 부르는 문화는 최소한 20세기 이전부터는 존재했으며 현재까지도 자신이 좋아하는 음악을 타인이 커버하는 것은 언제나 수요가 있었다. 하지만 노래를 잘 부르는 사람은 예나 지금이나 한정적이고, 자신이 좋아하는 목소리로 좋아하는 노래를 부르는 것을 듣는 것은 더욱더 한정적일 수 밖에 없었다.이 때문에 타인의 목소리를 이용해서 프로그램적으로 편집해서 노래를 만드는 시도가 존재했으며 이러한 문화는 21세기 00년대부터 존재했다. 대표적으로 보컬에 집중한 음원 제작 합성 DAW인 VOCALOID, 사람의 음절 하나하나를 잘라서 편집하는 인력VOCALOID 등이 있다.
많은 수요가 존재한 만큼 다양한 관련 문화와 기술은 계속 발전했다. 특히 하츠네 미쿠로 대표되는 VOCALOID의 경우[1] 동서양 막론하고 전세계적으로 다양한 목소리가 출시되었으며 단순히 노래를 넘어 호흡과 발성법까지 프로그래밍 할 수 있는 경지에 이르렀다. 그러나 아무리 많은 기능들이 추가되었다고 하더라도 결국 사람인 사용자가 직접 세부적으로 설정해 주어야만 했으므로 결국 수많은 경험을 거친 숙련자가 다뤄야만 했으며 만드는 데에도 상당한 시간 걸렸다. 그럼에도 불구하고 고도의 숙련자조차도 합성된 목소리에서 어색함을 지우는 것은 절대적으로 불가능했다. 인력VOCALOID는 말할 것도 없었다.
그러나 2022년부터 AI가 급격하게 성장하기 시작하며 다양한 AI들이 인간에 준하는 창작능력을 보유하게 되며 자연스럽게 음원 합성 프로그램에도 AI가 끼어들게 되었고, 그 결과가 AI 커버이다.
AI를 이용한 음원 합성은 기존의 모든 음성 합성 엔진을 단번에 도태시킬 정도로 혁명적인 발전이었다. 누구나 쉽게 접근할 수 있고, 누구나 자연스러운 목소리를 만들어낼 수 있으며, 제작 시간도 매우 짧다. AI 커버는 자신이 원하는 목소리로 원하는 노래를 부르게 한다는 희망을 단번에 해소시켜주며 순식간에 하나의 문화로 자리잡게 된다.
AI를 통한 음악 복원 사례는 2014년부터 이미 어느정도 현실화가 된 상태로 hide의 미완성 곡을 음성복원하여 발매한 것을 시작으로 2019년에는 일본 국민 가수인 미소라 히바리의 목소리를 AI로 딥러닝해 신곡을 만들기도 했고, 2020년 부터는 국내에서도 AI 음악 프로젝트 다시 한번,이나 세기의 대결: AI vs 인간, ALIVE, 아바드림 등을 통해 고인이 된 가수들의 목소리를 다시 재현하기 시작했다.
상단의 사례는 전부 전문가들의 추가 보정이 있었던 것이지만, 딥러닝의 원리에서 알 수 있듯이 그림 인공지능과 비슷하게 데이터만 쌓여 있으면 어렵지 않게 만들 수 있기 때문에 점점 대중화되기 시작하였고, 초기엔 디스코드 채널 기반으로 시작되었던 것이 현재는 AI 커버를 해주는 여러 사이트들까지 우후죽순 생겨났으며 패러디 대상도 비단 실존 가수뿐만 아니라 목소리가 존재하는 가상 캐릭터[2]들로 늘어가면서 기하급수적으로 커버 음악이 늘어나고 있다.
2022년부터 그림 인공지능의 발전사와 비슷하게, 노래 인공지능 또한 초창기엔 고음 부분을 제대로 처리하지 못해 노골적인 기계음이 나왔으나 몇달 되지 않아 실제 사람이 부른 원곡과 거의 차이 없을 정도로 높은 완성도를 보여주기 시작했다.
제작 과정 또한 상당히 단순화되어 팝콘AI, 소리소리AI( #)[3], Musicfy, voicmyai등 복잡한 작업 없이도 누구든 직접 제작이 가능한 서비스가 국내외에서 생겨나고 있다.
한국에서도 여러 유명 가수들의 목소리로 아이돌 음악[4]을 커버하는 영상들이 나오기 시작하면서 유행을 타기 시작해 여러 트위치 스트리머들의 목소리를 입힌 AI 커버들이 상당한 고퀄리티로 주목 받으며 상당히 인기가 늘고 있다.
한국가수로는 박효신, 임재범, 딘 등의 목소리를 입힌 헤어지자말해요, 하입보이등이 인기를 끌었고, 인도네시아도 조코 위도도의 목소리를 입힌 AI 커버가 조회수 380만회를 찍기도 했고 스페인에선 호머 심슨의 목소리를 입힌 La Gata Bajo La Lluvia의 AI 커버가 260만회를 찍는 등[5] 세계적으로 유행을 타고 있다.
그리고 마치 음성 합성 엔진[6]이랑 음MAD 것처럼 유사한 점이 많다. 기술의 발전으로 인해 2020년대에서는 훨씬 자연스러워졌다. 언어의 장벽도 자연스럽게 넘어가서 원본 목소리의 인공지능 목소리가 다른 언어를 네이티브처럼 자유롭게 구사하는 수준. 짜집기를 통한 병맛에서 웃음 요소가 나오는 음MAD와 달리 2020년대의 AI커버 노래의 웃음 요소는 원곡의 갭과 클것같은 인물, 가수들이 해당 노래를 부르는 식으로 웃음을 유도하는 경우가 많다. 예를 들어서 프랭크 시나트라가 익스트림 메탈 노래를 커버한다든가 하는 식으로.
2023년 들어 아돌프 히틀러나 쇼와 덴노 같은 2차 세계대전 지도자들의 육성을 학습한 커버곡들이 늘어나고 있다.
그리고 스트리머들 역시 유명 스트리머의 학습한 커버곡들이 많이 있으며 토너먼트식으로 대결해서 1위를 가리는 이른바 '월드컵' 컨텐츠가 생겨날 만큼 점차 유행하기 시작하면서 많은 스트리머들이 여기에 참여했다.
AI 커버들이 점점 많아지면서 이제 더 이상 실제 인물들이 아닌 칫솔 #이나 문 #같은 물건들의 커버곡들이 올라오고 있다.
아예 AI 목소리로 노래들을 만들기도 하는데 일부는 퀼리티가 엄청나서 빌보드 차트에 올라오는 음악들보다 좋다는 말이 많을정도다. # #
2024년 들어 Men's Tear의 AK47이랑 BIBI의 밤양갱이 다른 가수들의 목소리를 AI 커버한 영상들이 화제가 되었다. 빛의 비비라고 불리는 아이유의 목소리나 곡을 만든 장기하 등 다른 가수들의 AI 등이 올라왔는데 누가 불러도 잘 어울리는 마성의 곡이라는 평이 나오면서 수 많은 커버들이 유튜브에 올라왔다. 그리고 KBS 2TV에서는 AI 커버를 소재로 한 싱크로유라는 프로그램을 선보였다.
3. 만드는 방법
AI 커버곡을 만들기 위해선 우선 원곡의 MR과 목소리를 나누는 작업이 필요하다. 가우디오랩의 가우디오 스튜디오나 LALAL.AI 같은 음원분리 사이트, 혹은 UVR 같은 프로그램을 통해 빠르게 작업할 수 있다. AI 커버곡 퀄리티에 큰 영향을 미치는 작업으로, 깔끔하게 목소리만 추출해야 결과물이 좋게 나온다. 코러스나 에코가 없는 노래일수록 결과물이 좋다.이제 노래를 원하는 목소리로 바꾸기 위해 음성 모델이 필요한데, 구글 colab에 음성을 학습시켜 직접 제작하거나 Voice Models 등의 사이트에서 이미 제작되어 있는 음성 모델을 다운로드한다.
모델 제작시에는 기본적으로 학습량(epoch), 배치사이즈, 음원의 품질, 음원의 길이에 영향을 받으며, 학습량과 배치사이즈는 적당할수록 음원의 길이는 크고 다양하며 품질이 좋을수록 , 좋은 모델이 되며 많은 곡에서 커버하기 쉽다.
이때 주의할점은 과소적합이나 과적합이 일어나지 않도록 해야한다 과소적합은 ai가 데이터에 대하여 충분한 학습을 하지 못하여 어떤데이터에서도 제대로 성능을 발휘하지 못하는 현상으로 음원의 목소리차이가 크거나 학습량이 적거나 그럴경우 발생하며 과소적합 발생시 어떤곡으로 합성해도 목소리가 기대했던것 이하로 발생한다
과적합은 특정데이터에 지나치게 학습되어 일반화 성능이 떨어지는 현상으로 학습량이 너무 과도하거나 배치사이즈가 너무크거나 작을때 발생하며 합성후 저음부에서 발음을 오버해서 부르거나 이상한 잡음이 섞이거나 혹은 이도저도 아닌 애매한 소리가(ex:굵은 목소리로 학습한 모델로 얇은 목소리 노래들을 합성해서 이도저도 아닌경우) 난다면 과적합 증상이다.
또한 가능하면 라이브음원보단 cd음원으로 학습시키는걸 추천한다라이브는 그 특성상 에코나 함성등 노이즈가 많아서 cd보다 음원손질하는데 더 많이 손이 가고 손질해도 자체적으로 노이즈가 많아 cd보다 과적합이 더 쉽게 발생한다
하지만 과적합,과소적합을 해결한다고 해서 모든곡에서 다 원하는 결과물을 얻는건 아니다 창법의 차이가 너무 클 경우에는 좀처럼 원하는 결과물을 얻을수없다. 예를 들면 민경훈이나 이수, 박효신 같이 창법이 도드라지는 가수들로 커버하면 목소리와 창법이 따로 노는 현상이 발생한다. 이것은 아직까지 기술적인 한계로 창법을 바꾸는 것은 불가능하다 하지만 과적합을 역이용해서 목소리 특징을 이끌어내거나 이미 합성된 곡에 다시한번 합성하거나 혹은 index수치를 끌어올려 어느정돈 해결할수 있으나 잘못하면 발음이 깨질수 있다
이후 구글 colab이나 Replay 등의 프로그램을 활용해 음성을 변환하고, 변환된 음성을 골드웨이브나 Audacity 등의 프로그램을 통해 원곡의 MR과 다시 합쳐주면 된다.
상술한 AI 커버 제작 사이트를 이용할 경우 이런 과정들을 알아서 해주니 간편하지만 대부분 유료로 운영된다.
4. 문제점
|
|
이는 이러한 문화의 전신인 인력VOCALOID에도 해당되는 문제점이지만 이쪽은 한 문장만 만드는데도 노가다를 거치고 각종 DAW의 구매비용, 학습시간을 요구하여 현재처럼 대량으로 쏟아낼 수도 없고, 퀄리티도 실력에 따라 천차만별에다 최고 수준이라 한들 원본이 아님을 일반인 수준에서 구분이 가능할 정도이므로 실제 커버로 날조하는 것이 불가능했고, 즐기는 인원도 소수 서브컬쳐 팬덤으로 제한되어 있어 크게 불거지지 않았다.
그러나 AI 커버가 상용화된 이후로는 목소리 학습만 성공적으로 완료되면 거의 양산형으로 찍어내는 것이 가능하고,[7] 더이상 만화 캐릭터나 인터넷 밈 수준에 한정하지 않고 여러 분야에서 이목을 끌게 되면서 훨씬 크게 불거지고 있다. 인력 보컬로이드의 평가를 그럭저럭 유지해주던 '노력추' 요소가 사라져 버린 것. 게다가 기시다 후미오 AI 딥페이크 동영상 사건처럼 AI 커버 기술이 범죄 등에 이용되는 경우도 폭증하고 있어, 타인의 목소리를 이용하는 행위에 대한 경각심이 유례없이 커져가는 분위기가 형성되고 있다.
성우들은 목소리가 저작권이라 모두 AI 커버를 달가워하지 않는다. |
하지만 유튜브는 테러 같은 심각한 사안이 아닌 이상 수사에 협조하지 않기 때문에 유튜브에는 꾸준히 다양한 AI 커버가 업로드되고 있다.[8] 또한 허락받지않은 인터넷 방송인의 목소리를 무단으로 커버하는 경우도 있기에 문제가 되고 있다. 대부분은 팬심으로 하기도 하고 사전 허락을 받고 하기도 하지만 일체 거부하는 경우도 있다. 성우들도 AI 커버에 반대 목소리를 내고있지만 AI커버 곡들의 소스는 게임에서 나온 음성을 추출해서 사용하기에 저작권이 게임사에 있어 성우들은 AI 작곡가들에게 내 목소리를 AI에 쓰지 말아달라 정도밖에 할수없어 성우 개개인에게 대응책은 사실상 없다고 봐야한다.
결국 미국 테네시 주에서 아티스트의 저작권과 목소리를 AI 생성기에 학습시키는 행위를 위법화하는 이른바 '엘비스법'이 가결, 2024년 7월부터 효력을 가지게 된다. 특히 '목소리'를 보호 범위 내에 넣은 것이 매우 중요한 대목으로, 기존의 저작권법 등으로는 녹음 완료된 데이터가 아닌, 단순히 '개인의 목소리'라는 기존의 방법으로는 복제가 불가능한 추상적인 개념을 보호할 수 없는 상황이었기 때문이다.
5. 예시
임재범 목소리를 입힌 Hype Boy. 조회수는 2023년 10월 18일 기준 137만회.
저스틴 비버 목소리를 입힌 Nothing's Gonna Change My Love for You. 조회수는 2023년 11월 25일 기준 698만회.
조 바이든과 버락 오바마의 목소리를 입힌 Boy's a liar Pt. 2. 조회수는 2023년 8월 13일 기준 224만회.
징징이 목소리를 입힌 My Way. 조회수는 2023년 7월 27일 기준 114만회.
프랭크 시나트라 목소리를 입힌 Five Nights at Freddy's 1 Song.[9] 조회수는 2023년 8월 13일 기준 319만회.[10]
칸예 웨스트와 Playboi Carti 목소리를 입힌 Somebody That I Used To Know 조회수는 2023년 7월 27일 기준 179만회.
마인크래프트 주민 목소리를 입힌 Billie Jean. 조회수는 2023년 7월 27일 기준 163만회.
Five Nights at Freddy's 시리즈의 폰가이 목소리를 입힌 Cupid. 조회수는 2023년 8월 13일 기준 132만회.
박명수 목소리를 입힌 밤양갱. 조회수는 2024년 3월 23일 기준 38만회.
박진영 목소리를 입힌 고민중독. 조회수는 2024년 10월 20일 기준 88만회.
6. 관련 채널
나무위키 등재기준에 부합하는 채널만 등재합니다.- 유튜브 기준 구독자 1만 명 이상 또는 조회수 500만 회 이상
[1]
다만, 보컬로이드의 경우 처음에만 원래 있던 노래를 커버하는 정도였지만, 얼마 안 있어 오리지널 곡으로 기계에게 창작 노래를 부르게 하는 방향으로 문화가 발전했다.
[2]
대표적으로 각종
버츄얼 유튜버;
홀로라이브,
마인크래프트의
몹
딘 및
네모바지 스폰지밥의 등장인물,
호머 심슨,
죠죠의 기묘한 모험의
DIO 및
블루 아카이브 등이있다.
#
[3]
한국어 서비스 제공
[4]
그 외에도 J-POP이랑 영어팝도 거침없이 나온다.
[5]
하지만 저작권 위반으로 삭제되었다.
# 여전히 들을 수는 있다.
[6]
VOCALOID가 대표적.
[7]
정말로 본인이 부르는 듯한 느낌을 위해서는 노래마다 여러 가창 데이터를 수집하는 시간이 필요하겠으나 일반적인 AI커버 이용자는 목소리 학습만 끝내고 가창 데이터는 잘 부른 한 곡만 넣어서 완성시키는 경우가 대부분이다.
[8]
다만
유니버셜 뮤직 그룹이 저작권을 가지고 있는 커버들은 삭제되고 있다는 제보가 있다. 다른 회사는 별 말이 안 나오나 UMG는 대놓고 AI 커버에 불만을 표시했기 때문에 최대한 유튜브 업로드를 피하는게 좋다.
[9]
정확히는
2020년에 Coda가 만든 Big Band 버전을 베이스로 한 것이다.
[10]
같은 영상이 하나 더 올라와있는데 조회수는 2023년 8월 13일 기준 288만회.
[11]
2024년 10월 22일 기준 | 구독자 약 11.3만 명,
박효신,
임재범, 용준좌,
NewJeans 등 장르에 가리지 않는 AI커버를 업로드한다.
[12]
2024년 10월 22일 기준 | 구독자 약 7.1만 명,
DEAN,
NewJeans AI커버를 중심으로 업로드한다.
[13]
2024년 10월 22일 기준 | 구독자 약 4.5만 명, 마찬가지로
DEAN AI커버를 주로 업로드한다. DEAN 본인이 언급하기도 한 채널
[14]
2024년 10월 22일 기준 | 구독자 약 3.2만 명,
김광석을 중심으로 한 한국 7-90년대 가수들의 AI커버를 업로드한다.前 "AI 김광석" 채널
[15]
2024년 10월 22일 기준 | 구독자 약 2.8만 명,
임재범 AI커버를 중심으로 업로드한다.
[16]
2024년 10월 22일 기준 | 구독자 약 1.9만 명,
박효신 가수 AI커버를 중심으로 업로드한다.
[17]
2024년 10월 22일 기준 | 구독자 약 1.8만 명,
아이유,
윤하 등의 가수 AI커버를 중심으로 업로드한다.
[18]
2024년 10월 22일 기준 | 구독자 약 1.7만 명,
aespa 멤버
윈터의 가수 AI커버를 업로드한다. 실제로 윈터가 이 채널에 직접 방문하기도 하였다.
[19]
2024년 10월 22일 기준 | 구독자 약 1.4만 명,
NMIXX와
박진영 및
JYP 소속 아티스트의 AI커버를 업로드한다.
[20]
2024년 10월 22일 기준 | 구독자 약 1.2만 명,
NewJeans와
하니의 AI커버를 중심으로 업로드한다.
[21]
2024년 10월 22일 기준 | 구독자 약 1.2만 명, 도랄팍쥐,리그오브레전드 스트리머의 AI커버를 중심으로 업로드한다.