챗GPT의 새로운 AI 모델 GPT-4o 공개
5월 14일(한국 시간)에 OpenAI가 'GPT-4o'라는 새로운 다중 모달 모델을 발표했습니다. 이 모델은 텍스트, 이미지, 오디오를 결합하여 이해하고 추론하는 능력을 가지고 있습니다. GPT-4o는 기존 GPT-4 모델을 확장한 것으로, 전 세계 50개 언어를 지원하고 무료 고객을 포함한 모든 고객에게 제공될 예정입니다.
봄 시즌 업데이트 스트리밍에서는 텍스트, 이미지, 오디오를 사용하여 실시간으로 대화할 수 있는 새로운 음성 어시스턴트 모델을 선보이며 디지털 개인 비서로 전환을 의미합니다. 'o'는 '옴니(omni)'의 약자로 '모든 것'을 의미하며, 정식 출시는 몇 주 내에 예정되어 있습니다. 개발자를 위한 API는 이미 공개되었습니다. 또한, 이 모델은 미래에 애플의 '시리'와 통합될 가능성이 있습니다.
GPT-4o의 주요 특징
• GPT-4o 모델은 텍스트, 비전, 오디오를 통합하여 이해하고 추론할 수 있습니다. GPT-4o는 기존의 GPT-4 모델을 기반으로 하며, 전 세계 50개 언어를 지원합니다.
• GPT-4o는 텍스트, 오디오, 이미지 입력의 모든 조합을 받아들이고, 텍스트, 오디오, 이미지 출력의 모든 조합을 생성할 수 있습니다. 이는 사람과 컴퓨터 간의 상호작용을 훨씬 더 자연스럽게 만드는 한 걸음입니다.
• GPT-4o는 특히 비전과 오디오 이해에서 기존 모델에 비해 크게 향상되었습니다. 또한, 이 모델은 API에서 GPT-4 Turbo보다 두 배 빠르고, 비용은 절반 수준이며, 더 높은 속도 제한을 가지고 있습니다.
• GPT-4o는 OpenAI의 AI 기반 챗봇인 챗GPT의 경험을 크게 향상시킵니다. 사용자는 챗GPT와 더욱 비서처럼 상호작용할 수 있습니다. 예를 들어, 사용자는 GPT-4o가 답변하는 동안 질문을 중단할 수 있습니다. 이 모델은 "실시간" 반응성을 제공하며, 사용자의 목소리의 뉘앙스까지 파악할 수 있습니다.
• 이러한 기능을 기반으로 GPT-4o는 챗GPT를 실시간 음성 대화에 참여할 수 있는 디지털 개인 비서로 효과적으로 전환합니다. 또한 텍스트와 '시'를 사용하여 상호 작용할 수 있습니다. 즉, 사용자가 업로드한 스크린샷, 사진, 문서 또는 차트를 보고 이에 대해 대화할 수 있습니다.
• 다른 언어의 메뉴 사진을 보고 번역할 수 있지만, 미래에는 이 모델이 챗GPT에게 예를 들어, "라이브 스포츠 게임을 보고 규칙을 설명하라"는 등의 기능을 가능하게 할 수 있는 날이 멀지 않았습니다.
벤치마크에서도 GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 터보 수준은 물론, 다국어와 오디오, 비전 기능에서 새로운 최고 수준을 달성했다고 전했다.
• 이미지 처리 기능에서도 뛰어난 성능을 보였다. 종이에 적힌 수학 문제를 보여주고 답을 풀어내는 과정도 공개했으며, 오픈AI는 GPT-4o가 'GPT-4 터보'보다 두 배 더 빠르고 비용은 2분의 1 수준이며, 기술적으로는 기존에 LMM을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다고 설명했다.
• GPT-4o는 오디오 입력에 대해 평균 320밀리초, 최소 232밀리 초 만에 응답할 수 있어, 대화 시 인간의 반응 시간과 비슷합니다. 영어와 코드에서 GPT-4 Turbo와 동등한 성능을 유지하면서 비영어 텍스트의 성능을 크게 개선했습니다. API에서는 GPT-4 Turbo보다 훨씬 빠르고 비용도 50% 절감되었으며, 특히 시각 및 청각 이해 능력이 개선되었습니다.
• OpenAI의 CTO인 Mira Murati는 이 새로운 GPT-4o 모델이 더 효율적이기 때문에 무료로 제공될 것이라고 밝혔습니다. 이 모델은 OpenAI의 개발자 및 소비자 지향 제품에 대해 "반복적으로" 출시될 예정입니다.
OpenAI의 '봄 시즌 업데이트 스트리밍' 시연 내용
OpenAI의 '봄 시즌 업데이트 스트리밍'에서 여러가지 시연을 진행되었는데 몇 가지를 소개하자면
• OpenAI 경영진은 수학 문제 해결을 위한 실시간 지침을 얻고, 취침 시간에 이야기를 들려주고, 코딩 조언을 얻기 위해 챗GPT와의 음성 대화를 시연했습니다. 챗GPT는 인간의 목소리뿐만 아니라 로봇의 목소리로도 말할 수 있었고 심지어 응답의 일부를 노래하기도 했습니다. 이 도구는 차트 이미지를 보고 이에 대해 토론할 수도 있었습니다.
Mira Murati는 회사 샌프란시스코 본사에서 열린 라이브 데모에서 “사용 편의성 측면에서 실제로 큰 진전을 이룬 것은 이번이 처음입니다.”라고 말했습니다. "이러한 상호 작용은 훨씬 더 자연스럽고 훨씬 더 쉬워집니다."
• “당신은 진공청소기가 아니군요!” ChatGPT의 여성 목소리(2013년 영화 'Her'에서 스칼렛 요한슨이 목소리를 맡은 디지털 동반자와 매우 유사하게 들림)가 농담으로 직원에게 말했습니다. ChatGPT는 자동으로 번역하고 응답하여 여러 언어로 대화할 수도 있었습니다.
OpenAI CEO인 샘 알트만(Sam Altman)은 발표 후 블로그 게시물 에서 “새로운 음성(및 비디오) 모드는 내가 사용해 본 최고의 컴퓨터 인터페이스입니다.”라고 말했습니다. “그녀(Her) 영화에 나오는 AI 같은 느낌이에요. 그리고 그것이 현실이라는 사실이 아직도 나에게는 조금 놀랍습니다. 인간 수준의 응답 시간과 표현력을 갖추게 된 것은 큰 변화였습니다.”
• OpenAI가 GPT-4o 기능을 갖춘 챗GPT 데스크톱 앱을 출시하여 사용자에게 회사 기술과 상호 작용할 수 있는 또 다른 플랫폼을 제공할 것이라고 했습니다. GPT-4o는 OpenAI의 GPT 스토어에서 자신만의 맞춤형 챗봇을 구축하려는 개발자에게도 제공될 예정이며, 이제 무료 사용자에게도 이 기능이 제공됩니다.
• 업데이트된 기술과 기능은 앞으로 몇 달 안에 챗GPT에 출시될 예정입니다. 무료 챗GPT 사용자는 도구가 자동으로 이전 GPT-3.5 모델을 사용하도록 되돌아가기 전에 새로운 GPT-4o 모델과 제한된 수의 상호 작용을 하게 됩니다. 유료 사용자는 최신 모델을 통해 더 많은 메시지에 접근 할 수 있습니다.
데모 시연 영상
OpenAI가 제공하는 GPT-4o에 대한 영상을 참고하시면 유용할 것입니다. 주제별로 영상을 시청하시면 됩니다.
• 시청하실 유튜브 영상은 '자막'을 켜시고 톱니바퀴 모양의 '설정'에서 '자막 > '자동 번역' > '한국어'로 선택하여 시청하시면 내용을 이해하는데 도움이 됩니다.
▶ GPT-4o 실시간 오디오, 비전, 텍스트를 추론할 수 있는 실시간 번역 기능 시연 영상
GPT-4o를 사용한 실시간 번역
▶ GPT-4o 실시간 오디오, 비전, 텍스트를 추론할 수 있는 수학문제 시연 영상
GPT-4o의 수학 문제
▶ GPT-4o 실시간 오디오, 비전, 텍스트를 추론할 수 있는 스페인어 배우는 시연 영상
GPT-4o로 스페인어를 배우기
GPT-4o 사용해보기
OpenAI에서 제공하는 GPT-4o의 공식 정보와 도구 소개를 확인 할 수 있는 사이트는 아래 링크를 통해 확인하실 수 있습니다.
마치며
이 모델은 더욱 다양한 언어에서의 성능을 향상시키며, 이 모델은 우리가 이 모델이 할 수 있는 것과 그 한계를 탐색하는 것이 아직 초기 단계라는 것을 의미합니다. 이 모델은 더욱 다양한 언어에서의 성능을 향상시키며, 이 모델은 우리가 이 모델이 할 수 있는 것과 그 한계를 탐색하는 것이 아직 초기 단계라는 것을 의미합니다.
GPT2-챗봇의 최종버전으로 루머가 돌았던 정체물병의 모델이 GPT-4o로 확인되면서 큰 화제를 일으키며 과다한 트래픽 유발로 현재는 챗봇 아레나에서 내려간 상태입니다.
OpenAI는 올해 중 검색 제품과 동영상 생성 AI '소라(Sora)'를 정실 출시 할 예정이고, 사용자들의 가장 많은 관심을 받고 있는 '챗GPT-5' 출시 등을 기다리고 있습니다.
GPT-4o 앱은 윈도우, 맥(Mac) 데스크탑 앱 모두 제공되며, 먼저 유료 구독자(Plus)에게 먼저 출시될 예정이며 올해 단계별 출시와 함께 무료 구독자에게도 제공될 예정입니다.
함께 보면 도움이 되는 콘텐츠 보기
▶ 챗GPT 무료 사용자를 위한 GPT-4o와 GPT-3.5 사용방법 및 모델 전환, GPT스토어 무료 사용
▶ 챗GPT(Chat GPT)에서 이제 답변을 음성으로 들을 수 있는 'Read aloud(소리 내어 읽기)' 기능을 제공합니다.
▶ 크롬(Chrome) 브라우저에서 웹사이트를 '웹앱(PWA)'으로 설치하여 독립적으로 사용하는 방법
▶ 크롬(Chrome) 주소표시줄에서 제미나이(Gemini), @Gemini 사용방법
※ 포스팅이 도움이 되셨다면 💓공감, 댓글, 응원하기👍, 광고 부탁 드립니다. ~ 🎉👍🙏
'IT와 AI 인공지능' 카테고리의 다른 글
[I/O 2024] 구글, 동영상 생성 모델 비오(Veo)와 Text-to-Image 변환 모델 이마젠3(Imagen 3), 음악 AI 샌드박스, 리리아(Lyria) 공개 (180) | 2024.05.16 |
---|---|
윈도우 11, 코파일럿(Copilot) '전화' 플러그인 사용방법.. 편리함의 시작 (192) | 2024.05.14 |
크롬(Chrome) 브라우저에서 웹사이트를 '웹앱(PWA)'으로 설치하여 독립적으로 사용하는 방법 (117) | 2024.05.14 |
이제 윈도우용 아크(Arc) 브라우저를 설치 할 수 있습니다. 전통적인 탭 사용 경험 혁신을 제공 (216) | 2024.05.12 |
크롬(Chrome) 주소표시줄에서 제미나이(Gemini), @Gemini 사용방법 (214) | 2024.05.11 |