AI 음성 엔진(Voice Engine) 공개
3월 29일(미국 시간)에 OpenAI가 인간의 목소리를 재현할 수 있는 새로운 "AI 음성 생성 도구인 보이스 엔진(Voice Engine)"의 미리 보기(Preview) 발표했습니다. 이 AI 보이스 엔진(Voice Engine)은 자신의 녹음 음원내용과 텍스트 단락을 업로드 한 15초 분량의 오디오 샘플만으로 다양한 언어의 사람 목소리를 자연스럽게 생성하는 혁신적인 기술입니다.
이 기술은 다양한 언어로 맞춤형 음성을 생성할 수 있으며, 텍스트에서 음성으로의 변환 애플리케이션에 새로운 가능성을 제시하고, 디지털 콘텐츠 제작에도 새로운 기회를 열 것으로 기대됩니다.
We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ
— OpenAI (@OpenAI) March 29, 2024
AI 보이스 엔진(Voice Engine)의 특징
2022년 말부터 개발 중인 이 기술은 이미 OpenAI의 텍스트 음성 변환 API, 챗GPT 'Read aloud(소리 내어 읽기)'에서 사전 설정된 음성을 구동하는 데 사용되었습니다.
1. 자연스러운 음성: Voice Engine은 작은 크기에도 불구하고 감정이 풍부하고 현실적인 음성을 생성할 수 있습니다. 우리는 이 모델을 2022년 말에 처음 개발했으며, 텍스트 음성 변환 API, ChatGPT Voice, Read Aloud에서 사전 설정된 음성을 구동하는 데 사용했습니다.
2. 다양한 산업 분야에서의 응용:
• 독서 지원: Voice Engine은 비독자 및 어린이에게 다양한 화자를 대표하는 감정이 풍부하고 자연스러운 음성을 제공하여 독서 지원을 가능하게 합니다. 예를 들어, 어린이 교육 기술 회사인 Age of Learning은 이를 사용하여 미리 스크립트화된 음성 오버 콘텐츠를 생성합니다. 또한 Voice Engine과 GPT-4를 활용하여 학생들과 상호작용하는 실시간 맞춤형 응답을 생성합니다.
• 다국어 콘텐츠 번역: 창작자와 기업은 이제 동일한 음성을 유지하면서 비디오와 팟캐스트를 여러 언어로 원활하게 번역할 수 있습니다. AI 시각적 스토리텔링 플랫폼인 HeyGen은 비디오 번역에 Voice Engine을 활용합니다.
• Livox와 같은 접근성 앱은 비언어적인 개인이 증강 의사소통 장치를 사용할 때 더 자연스러운 합성 음성 옵션을 제공합니다.
• 의료 기관은 뇌졸중이나 뇌종양과 같은 질병으로 인해 발생한 환자의 목소리를 이전 음성 샘플을 사용하여 복원하는 방법을 모색하고 있습니다.
• 책임 있는 배포: OpenAI는 합성 음성의 잠재적 남용을 인식하고 있으며, 책임 있는 배포를 위해 주의를 기울이고 있습니다. 이러한 새로운 능력에 대한 사회적 대화를 시작하고, 어떻게 적응할 수 있는지에 대한 고려를 통해 더 나은 결정을 내리고자 합니다.
이러한 대화와 소규모 테스트 결과에 기반하여, OpenAI는 이 기술을 대규모로 배포할지 여부를 더욱 신중하게 결정할 수 있게 될 것입니다. Voice Engine의 초기 사용 사례를 통해, 이 기술이 어떻게 활용될 수 있는지에 대한 이해를 더욱 넓힐 수 있을 것이라고 밝혔습니다.
AI 보이스 엔진(Voice Engine) 샘플
OpenAI 공식 블로그에서 제공하는 AI 보이스 엔진(Voice Engine) 샘플 몇 개를 비교해 보겠습니다. 전체 샘플을 보고 싶다면 OpenAI의 공식 블로그를 참고하시기 바랍니다.
• 텍스트가 모국어로 작성될 필요는 없습니다. 예를 들어, 영어 사용자라면 스페인어, 프랑스어, 중국어 또는 기타 여러 언어로 음성을 생성할 수 있습니다.
1. 참조 오디오(본인의 목소리로 녹음)
• 예시, AI에 사용할 15초 영어로 된 자신의 오디오
예시, 영어로 된 자신의 목소리
2. AI 보이스 엔진(Voice Engine)으로 생성된 오디오
• 생물학에 대한 내용의 오디오를 만든 경우
본인의 목소리를 참조하여 "생물학"에 대한 오디로를 생성합니다.
번역:
지구상에서 가장 놀라운 서식지 중 일부는 열대 우림에서 발견됩니다. 열대 우림 은 강수량 이 많은 곳으로 , 다양한 종류의 동물, 나무, 식물이 자라고 있습니다. 열대 우림 은 일반적으로 적도에서 그리 멀지 않으며 일 년 내내 따뜻합니다.
• 독서에 대한 내용의 오디오를 만든 경우
본인의 목소리를 참조하여 "독서"에 대한 오디로를 생성합니다.
번역:
이 이야기는 수천 년 동안 전해지고 다시 전해 졌습니다. 그것이 가르치는 중심 메시지는 무엇입니까?
3. 참조 오디오(다국어를 위한 본인의 목소리로 녹음)
• 예시, AI에 사용할 16초 영어로 된 자신의 오디오
예시, 다국어를 만들기 위한 영어로 된 자신의 목소리
4. AI 보이스 엔진(Voice Engine)으로 생성된 오디오(다국어 만드는 예시)
• 스페인어로 오디오를 만든 경우
본인의 목소리를 참조하여 "스페인어"로 오디로를 생성합니다.
번역:
우정은 전 세계 어디에 있든 우리 삶에 기쁨과 지지, 웃음을 가져다주는 보편적인 보물입니다. 진정한 친구는 기쁠 때나 슬플 때나 우리와 함께하며 기쁨을 나누고 슬픔을 달래줍니다. 모든 언어와 문화를 뛰어넘어 우리 모두를 이어주는 우정의 끈을 함께 축하해 봅시다.
• 일본어로 오디오를 만든 경우
본인의 목소리를 참조하여 "일본어"로 오디로를 생성합니다.
번역:
우정은 보편적인 보물입니다. 진정한 친구는 세계 어디에 있든 우리 삶에 기쁨과 웃음을 가져다주고, 기쁨을 나누고, 슬픔을 나누고, 슬픔을 함께 나누며, 진정한 친구가 되어줄 것입니다. 언어와 문화를 넘어 우리 모두를 이어주는 우정의 끈을 축하합시다.
마치며
OpenAI는 AI 보이스 도구(Voice Engine)로 당장 돈을 벌 계획이 없다고 말했으며, 이 기술로 급속하게 발전하는 이 기술의 과제와 기회를 신중하게 탐색하기 위해 "정책 입안자, 연구원, 개발자 및 창작자"와의 공개 대화를 선호하면서 아직 Voice Engine을 널리 출시하지 않기로 결정했다고 밝혔습니다. 또한 파트너는 동의 없이 Voice Generation을 사용하여 사람이나 조직을 사칭하지 않는다는 사용 정책을 준수하기로 동의했습니다.
한 예로, 이 도구가 질병이나 사고로 목소리를 잃은 사람들에게 특히 유용할 수 있으며, 뇌종양으로 손상된 여성의 목소리를 재현하는 데 이 기술이 어떻게 사용되었는지 시연했습니다. 그녀는 한때 고등학생이었을 때 발표한 내용을 간략하게 녹음한 후 이제 말할 수 있게 됐다고 합니다.
함께 보면 도움이 되는 콘텐츠 보기
▶ 챗GPT(Chat GPT)에서 이제 답변을 음성으로 들을 수 있는 'Read aloud(소리 내어 읽기)' 기능을 제공합니다.
▶ OpenAI, 텍스트로 영상을 만드는 AI '소라(Sora)'모델의 데모 동영상 모음 Zip, 프롬프트 포함
▶ 노래 음악 만들어주는 AI 수노(Suno) V3 출시, 코파일럿 플러그 인에도 V3가 제공됩니다.
※ 포스팅이 도움이 되셨다면 💓공감, 댓글, 응원하기👍, 광고 부탁 드립니다. ~ 🎉👍🙏
'IT와 AI 인공지능' 카테고리의 다른 글
OpenAI, 이제 챗GPT에서 회원가입이나 로그인없이 사용할 수 있게 됐습니다. (222) | 2024.04.03 |
---|---|
윈도우, 그림판에서 배경제거(누끼따기) 후 레이어의 '배경색' 설정하고 숨기는 방법 (198) | 2024.04.01 |
애플 WWDC 2024 6월10일 확정, 알림 및 시청 방법, AI 및 iOS 18이상 발표예정 (246) | 2024.03.27 |
갤럭시 S24 시리즈의 '멀리서 찍은 사진도 AI로 선명하게', 프로비주얼 엔진(ProVisual Engine) (123) | 2024.03.26 |
갤럭시 S24 시리즈, 카메라 프로비주얼 엔진(ProVisual Engine) 주요 기능 (64) | 2024.03.26 |