OpenAI는 인공지능이 가능한 한 범용적으로 활용될 수 있도록 노력하고 있고, 그 일환으로 지난 7월 18일에 가장 비용 효율적인 소형 모델인 GPT-4o mini를 발표했습니다. GPT-4o mini는 기존에 비해 비용이 훨씬 낮아진 AI로 애플케이션의 범위를 크게 확장할 수 있을 것으로 기대됩니다. GPT-4o mini는 MMLU에서 82%의 점수를 기록하고 있으며, 현재 LMSYS 리더보드(opens in a new window)에서 채팅 선호도에서 GPT-4의 성능을 능가하고 있습니다. 입력 토큰 백만 개당 15센트, 출력 토큰 백만 개당 60센트로 가격이 책정되어 있어 이전의 최신 모델들보다 한 단계 더 저렴하고 GPT-3.5 터보보다 60% 이상 저렴합니다.
GPT-4o mini는 비용은 낮아지면서 속도가 빨라져 여러 모델 호출을 연결하거나 병렬화하는 애플리케이션 (예: 여러 API 호출), 모델에 대량의 컨텍스트를 전달하는 것 (예: 전체 코드 베이스 또는 대화 기록), 또는 빠르고 실시간으로 고객과 상호작용하는 텍스트 응답 (예: 고객 지원 챗봇)과 같은 광범위한 작업을 가능하게 합니다.
GPT-4o mini는 API에서 텍스트와 비전을 지원하며, 앞으로 텍스트, 이미지, 비디오 및 오디오 입력과 출력을 지원할 예정입니다. 이 모델은 128K 토큰의 컨텍스트 윈도우를 가지고 있으며, 요청당 최대 16K 출력 토큰을 지원하며, 2023년 10월까지의 지식을 보유하고 있습니다. GPT-4o와 공유하는 개선된 토크나이저 덕분에 비영어 텍스트도 이제 더욱 비용 효율적으로 처리할 수 있어, 한국어 이용자들에게는 희소식이 아닐 수 없습니다.
| 최고의 소형모델
GPT-4o mini는 텍스트 지능 및 멀티모달 추론 성능에 있어 GPT-3.5 터보와 다른 소형 모델들을 능가한다는 평가를 받았고, GPT-4o와 동일한 범위의 언어를 지원합니다. 또한 함수 호출에서 강력한 성능을 보여주어 개발자들이 외부 시스템에서 데이터를 가져오거나 작업을 수행하는 애플리케이션을 구축하는 부분에 있어 GPT-3.5 터보에 비해 향상된 컨텍스트 성능을 제공합니다.
GPT-4o mini는 여러 주요 벤치마크에서 아래와 같이 평가되었습니다.
추론 작업: GPT-4o 미니는 텍스트와 비전을 모두 포함한 추론 작업에서 다른 소형 모델들보다 뛰어나며, 텍스트 지능 및 추론 벤치마크인 MMLU에서 82.0%의 점수를 기록하였으며, 이는 Gemini Flash의 77.9%와 Claude Haiku의 73.8%와 비교해 더 높은 수준입니다.
수학 및 코딩 능력: GPT-4o mini는 수학적 추론 및 코딩 작업에서 뛰어난 성과를 보여주며, 시장의 이전 소형 모델들을 능가합니다. 수학적 추론을 측정하는 MGSM에서 GPT-4o mini는 87.0%를 기록하였으며, 이는 Gemini Flash의 75.5%와 Claude Haiku의 71.7%와 비교해 훨씬 높습니다. 코딩 성능을 측정하는 HumanEval에서는 GPT-4o mini가 87.2%를 기록하였으며, 이는 Gemini Flash의 71.5%와 Claude Haiku의 75.9%보다 훨씬 높은 수준입니다.
멀티모달 추론: GPT-4o 미니는 멀티모달 추론 평가인 MMMU에서도 강력한 성능을 보여주며, 59.4%의 점수를 기록하였고, 이는 Gemini Flash의 56.1%와 Claude Haiku의 50.2%보다 높습니다.
GPT-4o mini 모델 개발 과정에서 사용 사례와 한계를 더 잘 이해하기 위해 신뢰할 수 있는 몇몇 파트너들과 협력을 했다고 하는데요. Ramp(opens in a new window)와 Superhuman(opens in a new window)과 같은 기업들과 협력했으며, 이들은 영수증 파일에서 구조화된 데이터를 추출하거나 이메일 대화 기록을 제공받아 고품질의 이메일 응답을 생성하는 작업에서 GPT-3.5 터보보다 GPT-4o mini가 훨씬 더 좋은 성능을 발휘한다고 평가했습니다.
| 내장된 안전 조치
GPT-4o mini 안전을 위한 조치들이 모델 안에 내장되어 있으며 더욱 강화되었다고 합니다. 사전 학습에서는 증오 발언, 성인 콘텐츠, 주로 개인 정보를 수집하는 사이트, 스팸 등의 정보를 필터링하여 GPT-4o mini가 학습하거나 출력하지 않도록 조치되었습니다. 사후 학습에서는 인간의 피드백을 통한 강화 학습(RLHF)과 같은 기법을 사용하여 모델의 응답 정확성과 신뢰성을 높이기 위해 모델의 동작을 Open AI의 정책에 맞추어 조정했습니다.
GPT-4o mini는 70명이 넘는 외부 전문가들이 사회심리학과 허위 정보 같은 분야에서 GPT-4o를 테스트하여 잠재적 위험을 확인하고 이를 해결했던 GPT-4o와 동일한 안전 조치가 되어있습니다. 이러한 전문가 평가에서 얻은 통찰력은 GPT-4o와 GPT-4o mini의 안전성을 개선하는 데 큰 도움이 되었다고 합니다.
API에서의 GPT-4o mini는 지침 계층(instruction hierarchy) 방법을 적용한 첫 번째 모델로, 이 방법은 탈옥, 프롬프트 주입, 시스템 프롬프트 추출에 대한 모델의 저항성을 향상시켰고, 이는 모델의 응답을 더 신뢰할 수 있게 만들고 대규모 애플리케이션에서 더 안전하게 사용할 수 있도록 했습니다.
| 출시 및 가격
GPT-4o mini는 이제 Assistants API, Chat Completions API, 그리고 Batch API에서 텍스트 및 비전 모델로 이용 가능합니다. 입력 토큰 백만 개당 15센트, 출력 토큰 백만 개당 60센트의 비용(표준 책 약 2500페이지에 해당)이 발생하며, 조만간 GPT-4o mini에 대한 미세 조정 기능도 제공할 계획이라고 합니다.
ChatGPT에서는 무료, 플러스 및 팀 사용자들이 발표 당일부터 GPT-3.5 대신 GPT-4o mini를 이용할 수 있게 하였고, 엔터프라이즈 사용자들 또한 다음 주부터 이용할 수 있게 됩니다.
| 향후 전망
지난 몇 년 동안 우리는 생성형 AI의 빠른 발전과 함께 비용이 계속해서 낮아지는 것을 경험하고 있습니다. 예를 들어, 2022년 모델인 text-davinci-003과 비교했을 때 GPT-4o mini의 토큰 당 비용은 99% 감소했습니다. 아마도 Open AI는 지속적으로 비용을 줄이면서 모델의 능력을 향상시키는 이 경로를 계속 이어갈 것으로 전망됩니다. 그래서 다양한 애플레이션들과 웹사이트에서 GPT모델들이 잘 통합되어 서비스로 제공하는 방향으로 발전할 수 있을 것 같습니다. GPT-4o mini는 그 방향의 선상에서 개발자들이 더 강력한 AI 애플리케이션을 더 효율적이고 저렴하게 구축하고 확장할 수 있는 길을 열어주고 있다고 볼 수 있습니다.
많은 생성형 AI 모델들의 업데이트 주기가 점점 빨라지고 있고, 이와 동시에 비용이 낮아지고 있다는 건 향후 이 모델들을 활용한 제품과 서비스들이 많이 출시될 것으로 예상되는데요. 대부분의 전문가들은 이구동성으로 이러한 AI의 발전 속도가 예상한 것보다 훨씬 빠르다고 평가하고 있습니다.
앞으로 AI는 어떻게 우리의 미래를 변화시킬까요?
그 변화를 이끄는 것은 결국 이것을 활용하는 인간이 어떻게 활용하느냐에 달려있을 것 같습니다.
원더스랩은 AI가 기업의 목표에 맞게 '잘' 도입될 수 있도록 지원합니다.
AI 활용 및 도입에 대한 고민이 있으시다면, 언제든지 문의해주세요🙂
지금 바로 문의하기
OpenAI는 인공지능이 가능한 한 범용적으로 활용될 수 있도록 노력하고 있고, 그 일환으로 지난 7월 18일에 가장 비용 효율적인 소형 모델인 GPT-4o mini를 발표했습니다. GPT-4o mini는 기존에 비해 비용이 훨씬 낮아진 AI로 애플케이션의 범위를 크게 확장할 수 있을 것으로 기대됩니다. GPT-4o mini는 MMLU에서 82%의 점수를 기록하고 있으며, 현재 LMSYS 리더보드(opens in a new window)에서 채팅 선호도에서 GPT-4의 성능을 능가하고 있습니다. 입력 토큰 백만 개당 15센트, 출력 토큰 백만 개당 60센트로 가격이 책정되어 있어 이전의 최신 모델들보다 한 단계 더 저렴하고 GPT-3.5 터보보다 60% 이상 저렴합니다.
GPT-4o mini는 비용은 낮아지면서 속도가 빨라져 여러 모델 호출을 연결하거나 병렬화하는 애플리케이션 (예: 여러 API 호출), 모델에 대량의 컨텍스트를 전달하는 것 (예: 전체 코드 베이스 또는 대화 기록), 또는 빠르고 실시간으로 고객과 상호작용하는 텍스트 응답 (예: 고객 지원 챗봇)과 같은 광범위한 작업을 가능하게 합니다.
GPT-4o mini는 API에서 텍스트와 비전을 지원하며, 앞으로 텍스트, 이미지, 비디오 및 오디오 입력과 출력을 지원할 예정입니다. 이 모델은 128K 토큰의 컨텍스트 윈도우를 가지고 있으며, 요청당 최대 16K 출력 토큰을 지원하며, 2023년 10월까지의 지식을 보유하고 있습니다. GPT-4o와 공유하는 개선된 토크나이저 덕분에 비영어 텍스트도 이제 더욱 비용 효율적으로 처리할 수 있어, 한국어 이용자들에게는 희소식이 아닐 수 없습니다.
| 최고의 소형모델
GPT-4o mini는 텍스트 지능 및 멀티모달 추론 성능에 있어 GPT-3.5 터보와 다른 소형 모델들을 능가한다는 평가를 받았고, GPT-4o와 동일한 범위의 언어를 지원합니다. 또한 함수 호출에서 강력한 성능을 보여주어 개발자들이 외부 시스템에서 데이터를 가져오거나 작업을 수행하는 애플리케이션을 구축하는 부분에 있어 GPT-3.5 터보에 비해 향상된 컨텍스트 성능을 제공합니다.
GPT-4o mini는 여러 주요 벤치마크에서 아래와 같이 평가되었습니다.
추론 작업: GPT-4o 미니는 텍스트와 비전을 모두 포함한 추론 작업에서 다른 소형 모델들보다 뛰어나며, 텍스트 지능 및 추론 벤치마크인 MMLU에서 82.0%의 점수를 기록하였으며, 이는 Gemini Flash의 77.9%와 Claude Haiku의 73.8%와 비교해 더 높은 수준입니다.
수학 및 코딩 능력: GPT-4o mini는 수학적 추론 및 코딩 작업에서 뛰어난 성과를 보여주며, 시장의 이전 소형 모델들을 능가합니다. 수학적 추론을 측정하는 MGSM에서 GPT-4o mini는 87.0%를 기록하였으며, 이는 Gemini Flash의 75.5%와 Claude Haiku의 71.7%와 비교해 훨씬 높습니다. 코딩 성능을 측정하는 HumanEval에서는 GPT-4o mini가 87.2%를 기록하였으며, 이는 Gemini Flash의 71.5%와 Claude Haiku의 75.9%보다 훨씬 높은 수준입니다.
멀티모달 추론: GPT-4o 미니는 멀티모달 추론 평가인 MMMU에서도 강력한 성능을 보여주며, 59.4%의 점수를 기록하였고, 이는 Gemini Flash의 56.1%와 Claude Haiku의 50.2%보다 높습니다.
GPT-4o mini 모델 개발 과정에서 사용 사례와 한계를 더 잘 이해하기 위해 신뢰할 수 있는 몇몇 파트너들과 협력을 했다고 하는데요. Ramp(opens in a new window)와 Superhuman(opens in a new window)과 같은 기업들과 협력했으며, 이들은 영수증 파일에서 구조화된 데이터를 추출하거나 이메일 대화 기록을 제공받아 고품질의 이메일 응답을 생성하는 작업에서 GPT-3.5 터보보다 GPT-4o mini가 훨씬 더 좋은 성능을 발휘한다고 평가했습니다.
| 내장된 안전 조치
GPT-4o mini 안전을 위한 조치들이 모델 안에 내장되어 있으며 더욱 강화되었다고 합니다. 사전 학습에서는 증오 발언, 성인 콘텐츠, 주로 개인 정보를 수집하는 사이트, 스팸 등의 정보를 필터링하여 GPT-4o mini가 학습하거나 출력하지 않도록 조치되었습니다. 사후 학습에서는 인간의 피드백을 통한 강화 학습(RLHF)과 같은 기법을 사용하여 모델의 응답 정확성과 신뢰성을 높이기 위해 모델의 동작을 Open AI의 정책에 맞추어 조정했습니다.
GPT-4o mini는 70명이 넘는 외부 전문가들이 사회심리학과 허위 정보 같은 분야에서 GPT-4o를 테스트하여 잠재적 위험을 확인하고 이를 해결했던 GPT-4o와 동일한 안전 조치가 되어있습니다. 이러한 전문가 평가에서 얻은 통찰력은 GPT-4o와 GPT-4o mini의 안전성을 개선하는 데 큰 도움이 되었다고 합니다.
API에서의 GPT-4o mini는 지침 계층(instruction hierarchy) 방법을 적용한 첫 번째 모델로, 이 방법은 탈옥, 프롬프트 주입, 시스템 프롬프트 추출에 대한 모델의 저항성을 향상시켰고, 이는 모델의 응답을 더 신뢰할 수 있게 만들고 대규모 애플리케이션에서 더 안전하게 사용할 수 있도록 했습니다.
| 출시 및 가격
GPT-4o mini는 이제 Assistants API, Chat Completions API, 그리고 Batch API에서 텍스트 및 비전 모델로 이용 가능합니다. 입력 토큰 백만 개당 15센트, 출력 토큰 백만 개당 60센트의 비용(표준 책 약 2500페이지에 해당)이 발생하며, 조만간 GPT-4o mini에 대한 미세 조정 기능도 제공할 계획이라고 합니다.
ChatGPT에서는 무료, 플러스 및 팀 사용자들이 발표 당일부터 GPT-3.5 대신 GPT-4o mini를 이용할 수 있게 하였고, 엔터프라이즈 사용자들 또한 다음 주부터 이용할 수 있게 됩니다.
| 향후 전망
지난 몇 년 동안 우리는 생성형 AI의 빠른 발전과 함께 비용이 계속해서 낮아지는 것을 경험하고 있습니다. 예를 들어, 2022년 모델인 text-davinci-003과 비교했을 때 GPT-4o mini의 토큰 당 비용은 99% 감소했습니다. 아마도 Open AI는 지속적으로 비용을 줄이면서 모델의 능력을 향상시키는 이 경로를 계속 이어갈 것으로 전망됩니다. 그래서 다양한 애플레이션들과 웹사이트에서 GPT모델들이 잘 통합되어 서비스로 제공하는 방향으로 발전할 수 있을 것 같습니다. GPT-4o mini는 그 방향의 선상에서 개발자들이 더 강력한 AI 애플리케이션을 더 효율적이고 저렴하게 구축하고 확장할 수 있는 길을 열어주고 있다고 볼 수 있습니다.
많은 생성형 AI 모델들의 업데이트 주기가 점점 빨라지고 있고, 이와 동시에 비용이 낮아지고 있다는 건 향후 이 모델들을 활용한 제품과 서비스들이 많이 출시될 것으로 예상되는데요. 대부분의 전문가들은 이구동성으로 이러한 AI의 발전 속도가 예상한 것보다 훨씬 빠르다고 평가하고 있습니다.
앞으로 AI는 어떻게 우리의 미래를 변화시킬까요?
그 변화를 이끄는 것은 결국 이것을 활용하는 인간이 어떻게 활용하느냐에 달려있을 것 같습니다.
원더스랩은 AI가 기업의 목표에 맞게 '잘' 도입될 수 있도록 지원합니다.
AI 활용 및 도입에 대한 고민이 있으시다면, 언제든지 문의해주세요🙂
지금 바로 문의하기