Whisper(AI)


{{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5	제품군
서비스	ChatGPT · OpenAI(인공지능)
모델	GPT-1 · GPT-2 · GPT-3( GPT-3.5) · GPT-4( GPT-4 Turbo · GPT-4o · GPT-4o mini) · GPT-5(개발 중) o1(o1-preview · o1-mini)
	DALL·E · Codex · CLIP · Whisper · Voice Engine · Sora · SearchGPT
관련 인물
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이
관련 기업
마이크로소프트

}}}}}}}}}}}}}}} ||

위스퍼 Whisper
출시일	2022년 9월
제작사	OpenAI
라이선스	MIT 라이선스
관련 링크	\| \|

1. 개요2. 상세3. 여담

[clearfix]

1. 개요

OpenAI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델이다. 2022년 9월에 오픈 소스로 공개했으며, 2022년 12월에는 기존 large 모델에서 더욱 개선된 large-v2 모델을 출시했다.

Whisper는 680,000시간 분량의 다국어 및 다목적 감독 데이터를 학습했다. ChatGPT 앱의 음성 인식 기능이 위스퍼 모델을 기반으로 만들어진 것이다.

2. 상세

모델의 크기에 따라 여러 모델이 존재하며, 영어만 처리할 수 있는 모델과 여러 언어를 처리할 수 있는 다국어 모델로 구분된다.

<rowcolor=#000,#fff> 크기	매개변수	영어 전용 모델	다국어 모델
tiny	39 M	✓	✓
base	74 M	✓	✓
small	244 M	✓	✓
medium	769 M	✓	✓
large	1550 M		✓

오픈 소스로 공개되었기 때문에 Whisper를 스트리밍 웹사이트에서 바로 사용할 수 있으며 또한 Python으로 설치하여 사용할 수 있다.[1] 별도로 OpenAI에서 제공하는 API를 통해, large-v2 모델을 분당 $0.006[2]에 사용할 수도 있다.

한국어는 단어 오류율(WER)[3] 통계를 기준으로 27위에 해당한다. # 순위 통계만 27위일 뿐, 성능은 웬만한 음성 인식 기능보다 뛰어나다.

3. 여담

OpenAI와 제휴한 스픽이 Whisper API를 사용하고, 대표 사용 사례로 소개되었다. #
ChatGPT 공식 앱의 음성 인식에서 Whisper가 사용되고 있다.

[1] Python 3.9.9 및 PyTorch 1.10.1 버전으로 모델을 학습하고 테스트했다고 한다. 코드 베이스는 Python 3.8-3.11, 최신 버전 PyTorch와 호환된다. [2] 한화로 약 8원. [3] Word Error Rate, 대부분 음성 인식 인공지능의 성능을 계산할 때 사용되는 측정 지표. 퍼센트가 낮을수록 성능이 좋다.

Whisper(AI)

1. 개요

2. 상세

3. 여담

분류