본문 바로가기
IT와 AI 인공지능

OpenAI의 챗GPT의 새로운 인공지능 모델 GPT-4o 출시: 모든 사용자에게 무료로 제공되는 '옴니(omni)'

by 새콤달콤심쿵 2024. 5. 14.
반응형

챗GPT의 새로운 AI 모델 GPT-4o 공개

5월 14일(한국 시간)에 OpenAI가 'GPT-4o'라는 새로운 다중 모달 모델을 발표했습니다. 이 모델은 텍스트, 이미지, 오디오를 결합하여 이해하고 추론하는 능력을 가지고 있습니다. GPT-4o는 기존 GPT-4 모델을 확장한 것으로, 전 세계 50개 언어를 지원하고 무료 고객을 포함한 모든 고객에게 제공될 예정입니다.  

봄 시즌 업데이트 스트리밍에서는 텍스트, 이미지, 오디오를 사용하여 실시간으로 대화할 수 있는 새로운 음성 어시스턴트 모델을 선보이며 디지털 개인 비서로 전환을 의미합니다.  'o'는 '옴니(omni)'의 약자로 '모든 것'을 의미하며, 정식 출시는 몇 주 내에 예정되어 있습니다. 개발자를 위한 API는 이미 공개되었습니다. 또한, 이 모델은 미래에 애플의 '시리'와 통합될 가능성이 있습니다. 

OpenAi 최고 기술 책임자인 Mira Murati는 월요일 무대와 라이브 스트림 프레젠테이션에서 회사의 제품 업그레이드를 소개했습니다.
OpenAi 최고 기술 책임자인 Mira Murati는 월요일 무대와 라이브 스트림 프레젠테이션에서 회사의 제품 업그레이드를 소개했습니다.

 

GPT-4o의 주요 특징

• GPT-4o 모델은 텍스트, 비전, 오디오를 통합하여 이해하고 추론할 수 있습니다. GPT-4o는 기존의 GPT-4 모델을 기반으로 하며, 전 세계 50개 언어를 지원합니다. 

GPT-4o

• GPT-4o는 텍스트, 오디오, 이미지 입력의 모든 조합을 받아들이고, 텍스트, 오디오, 이미지 출력의 모든 조합을 생성할 수 있습니다. 이는 사람과 컴퓨터 간의 상호작용을 훨씬 더 자연스럽게 만드는 한 걸음입니다.

• GPT-4o는 특히 비전과 오디오 이해에서 기존 모델에 비해 크게 향상되었습니다. 또한, 이 모델은 API에서 GPT-4 Turbo보다 두 배 빠르고, 비용은 절반 수준이며, 더 높은 속도 제한을 가지고 있습니다.

 

• GPT-4o는 OpenAI의 AI 기반 챗봇인 챗GPT의 경험을 크게 향상시킵니다. 사용자는 챗GPT와 더욱 비서처럼 상호작용할 수 있습니다. 예를 들어, 사용자는 GPT-4o가 답변하는 동안 질문을 중단할 수 있습니다. 이 모델은 "실시간" 반응성을 제공하며, 사용자의 목소리의 뉘앙스까지 파악할 수 있습니다.

 

• 이러한 기능을 기반으로 GPT-4o는 챗GPT를 실시간 음성 대화에 참여할 수 있는 디지털 개인 비서로 효과적으로 전환합니다. 또한 텍스트와 '시'를 사용하여 상호 작용할 수 있습니다. 즉, 사용자가 업로드한 스크린샷, 사진, 문서 또는 차트를 보고 이에 대해 대화할 수 있습니다. 


• 다른 언어의 메뉴 사진을 보고 번역할 수 있지만, 미래에는 이 모델이 챗GPT에게 예를 들어, "라이브 스포츠 게임을 보고 규칙을 설명하라"는 등의 기능을 가능하게 할 수 있는 날이 멀지 않았습니다. 

AI별 벤치마크 결과
AI별 벤치마크 결과

벤치마크에서도 GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 터보 수준은 물론, 다국어와 오디오, 비전 기능에서 새로운 최고 수준을 달성했다고 전했다.

 

 이미지 처리 기능에서도 뛰어난 성능을 보였다. 종이에 적힌 수학 문제를 보여주고 답을 풀어내는 과정도 공개했으며, 오픈AI는 GPT-4o가 'GPT-4 터보'보다 두 배 더 빠르고 비용은 2분의 1 수준이며, 기술적으로는 기존에 LMM을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다고 설명했다. 

 

• GPT-4o는 오디오 입력에 대해 평균 320밀리초, 최소 232밀리 초 만에 응답할 수 있어, 대화 시 인간의 반응 시간과 비슷합니다. 영어와 코드에서 GPT-4 Turbo와 동등한 성능을 유지하면서 비영어 텍스트의 성능을 크게 개선했습니다. API에서는 GPT-4 Turbo보다 훨씬 빠르고 비용도 50% 절감되었으며, 특히 시각 및 청각 이해 능력이 개선되었습니다.

 

• OpenAI의 CTO인 Mira Murati는 이 새로운 GPT-4o 모델이 더 효율적이기 때문에 무료로 제공될 것이라고 밝혔습니다. 이 모델은 OpenAI의 개발자 및 소비자 지향 제품에 대해 "반복적으로" 출시될 예정입니다. 

 

OpenAI의 '봄 시즌 업데이트 스트리밍' 시연 내용 

OpenAI의 '봄 시즌 업데이트 스트리밍'에서 여러가지 시연을 진행되었는데 몇 가지를 소개하자면 

 

• OpenAI 경영진은 수학 문제 해결을 위한 실시간 지침을 얻고, 취침 시간에 이야기를 들려주고, 코딩 조언을 얻기 위해 챗GPT와의 음성 대화를 시연했습니다. 챗GPT는 인간의 목소리뿐만 아니라 로봇의 목소리로도 말할 수 있었고 심지어 응답의 일부를 노래하기도 했습니다. 이 도구는 차트 이미지를 보고 이에 대해 토론할 수도 있었습니다.

OpenAI 경영진이 회사의 최신 대규모 언어 모델인 GPT-4o를 시연
OpenAI 경영진이 회사의 최신 대규모 언어 모델인 GPT-4o를 시연

Mira Murati는 회사 샌프란시스코 본사에서 열린 라이브 데모에서 “사용 편의성 측면에서 실제로 큰 진전을 이룬 것은 이번이 처음입니다.”라고 말했습니다. "이러한 상호 작용은 훨씬 더 자연스럽고 훨씬 더 쉬워집니다." 

 

• “당신은 진공청소기가 아니군요!” ChatGPT의 여성 목소리(2013년 영화 'Her'에서 스칼렛 요한슨이 목소리를 맡은 디지털 동반자와 매우 유사하게 들림)가 농담으로 직원에게 말했습니다. ChatGPT는 자동으로 번역하고 응답하여 여러 언어로 대화할 수도 있었습니다. 

OpenAI CEO인 샘 알트만(Sam Altman)은 발표 후 블로그 게시물 에서 “새로운 음성(및 비디오) 모드는 내가 사용해 본 최고의 컴퓨터 인터페이스입니다.”라고 말했습니다. “그녀(Her) 영화에 나오는 AI 같은 느낌이에요. 그리고 그것이 현실이라는 사실이 아직도 나에게는 조금 놀랍습니다. 인간 수준의 응답 시간과 표현력을 갖추게 된 것은 큰 변화였습니다.”

 

• OpenAI가 GPT-4o 기능을 갖춘 챗GPT 데스크톱 앱을 출시하여 사용자에게 회사 기술과 상호 작용할 수 있는 또 다른 플랫폼을 제공할 것이라고 했습니다. GPT-4o는 OpenAI의 GPT 스토어에서 자신만의 맞춤형 챗봇을 구축하려는 개발자에게도 제공될 예정이며, 이제 무료 사용자에게도 이 기능이 제공됩니다. 

업데이트된 기술과 기능은 앞으로 몇 달 안에 챗GPT에 출시될 예정입니다. 무료 챗GPT 사용자는 도구가 자동으로 이전 GPT-3.5 모델을 사용하도록 되돌아가기 전에 새로운 GPT-4o 모델과 제한된 수의 상호 작용을 하게 됩니다. 유료 사용자는 최신 모델을 통해 더 많은 메시지에 접근 할 수 있습니다. 

 

데모 시연 영상 

OpenAI가 제공하는 GPT-4o에 대한 영상을 참고하시면 유용할 것입니다. 주제별로 영상을 시청하시면 됩니다. 

 

• 시청하실 유튜브 영상은 '자막'을 켜시고 톱니바퀴 모양의 '설정'에서 '자막 > '자동 번역' > '한국어'로 선택하여 시청하시면 내용을 이해하는데 도움이 됩니다.  

자동 자막 설정 방법
자동 자막 설정 방법

 

▶ GPT-4o 실시간 오디오, 비전, 텍스트를 추론할 수 있는 실시간 번역 기능 시연 영상 

GPT-4o를 사용한 실시간 번역

 

 GPT-4o 실시간 오디오, 비전, 텍스트를 추론할 수 있는 수학문제 시연 영상 

GPT-4o의 수학 문제

 

 GPT-4o 실시간 오디오, 비전, 텍스트를 추론할 수 있는 스페인어 배우는 시연 영상 

GPT-4o로 스페인어를 배우기

 

GPT-4o 사용해보기

OpenAI에서 제공하는 GPT-4o의 공식 정보와 도구 소개를 확인 할 수 있는 사이트는 아래 링크를 통해 확인하실 수 있습니다. 

GPT-4o의 공식 정보

 

▶ GPT-4o 서비스 소개 보기 

 GPT-4o 상세 내용 보기 

 GPT-4o Playground 도구 사용해보기 

 

마치며

이 모델은 더욱 다양한 언어에서의 성능을 향상시키며, 이 모델은 우리가 이 모델이 할 수 있는 것과 그 한계를 탐색하는 것이 아직 초기 단계라는 것을 의미합니다. 이 모델은 더욱 다양한 언어에서의 성능을 향상시키며, 이 모델은 우리가 이 모델이 할 수 있는 것과 그 한계를 탐색하는 것이 아직 초기 단계라는 것을 의미합니다.

 

 GPT2-챗봇의 최종버전으로 루머가 돌았던 정체물병의 모델이 GPT-4o로 확인되면서 큰 화제를 일으키며 과다한 트래픽 유발로 현재는 챗봇 아레나에서 내려간 상태입니다.

 

OpenAI는 올해 중 검색 제품과 동영상 생성 AI '소라(Sora)'를 정실 출시 할 예정이고, 사용자들의 가장 많은 관심을 받고 있는 '챗GPT-5' 출시 등을 기다리고 있습니다. 

 

GPT-4o 앱은 윈도우, 맥(Mac) 데스크탑 앱 모두 제공되며, 먼저 유료 구독자(Plus)에게 먼저 출시될 예정이며 올해 단계별 출시와 함께 무료 구독자에게도 제공될 예정입니다. 

 

함께 보면 도움이 되는 콘텐츠 보기

▶ 챗GPT 무료 사용자를 위한 GPT-4o와 GPT-3.5 사용방법 및 모델 전환, GPT스토어 무료 사용

 

챗GPT 무료 사용자를 위한 GPT-4o와 GTP-3.5 사용방법 및 모델 전환, GPT스토어 무료 사용

무료 사용자도 사용가능한 GPT-4oOpenAI는 최근 '봄 시즌 업데이트 스트리밍' 행사에서 유료/무료 모든 사용자를 위한 챗GPT를 지원하는 최신 주력 모델인 'GPT-4o'를 출시했습니다. GPT-4o는 GPT-4 모델의

bizstoryway.tistory.com

▶ 챗GPT(Chat GPT)에서 이제 답변을 음성으로 들을 수 있는 'Read aloud(소리 내어 읽기)' 기능을 제공합니다.

 

챗GPT(Chat GPT)에서 이제 답변을 음성으로 들을 수 있는 'Read aloud(소리 내어 읽기)' 기능을 제공합니

챗GPT에서 음성 읽어주는 기능 출시 3월 5일(미국 시간) OpenAI는 챗GPT(ChatGPT)의 새로운 'Read aloud(소리 내어 읽기)' 기능을 발표했습니다. 이 기능을 사용하면 챗봇이 5가지 다른 목소리로 답변을 읽

bizstoryway.tistory.com

▶ 크롬(Chrome) 브라우저에서 웹사이트를 '웹앱(PWA)'으로 설치하여 독립적으로 사용하는 방법

 

크롬(Chrome) 브라우저에서 웹사이트를 '웹앱(PWA)'으로 설치하여 독립적으로 사용하는 방법

크롬(Chrome) 124버전 업데이트 출시구글 크롬(Chrome) 브라우저는 최근 제미나이(Gemini) AI 챗봇 통합과 같은 새로운 기능을 포함하여 124 버전이상으로 업데이트되었습니다. 이 업데이트를 통해 사용

bizstoryway.tistory.com

▶ 크롬(Chrome) 주소표시줄에서 제미나이(Gemini), @Gemini 사용방법

 

크롬(Chrome) 주소표시줄에서 제미나이(Gemini), @Gemini 사용방법

크롬(Chrome) 제미나이(Gemini) 업데이트 출시 최근 구글은 크롬(Chrome) 브라우저와 제미나이(Gemini)를 업데이트하여 기존의 167개국 외에도 더 많은 국가와 언어에서 사용할 수 있게 업데이트했습니

bizstoryway.tistory.com

 

※ 포스팅이 도움이 되셨다면 💓공감, 댓글, 응원하기👍, 광고 부탁 드립니다. ~ 🎉👍🙏

 

반응형