OpenAI 인간처럼 추론 능력을 갖춘 'OpenAI o1' 발표


단순한 대화를 넘어 논리적으로 추론하는 'OpenAI o1'





최근 OpenAI에서 발표한 'o1-preview' 'o1-mini'는 기존 GPT 모델과 달리, 인간처럼 문제를 깊이 생각하고 해결하는 능력이 뛰어나다고 합니다.


또한, 스트로베리(‘Strawberry’) 알고리즘이 도입되어 AI가 복잡한 문제를 더 체계적으로 분석하고 해결할 수 있게 돕는다고 합니다. 이 모델들은 즉각적인 답변 대신 깊이 있는 사고와 추론을 통해 더욱 정확한 결과를 제공하는 것이 특징입니다.




질문에 생각하며 대답하는 o1- preview


 




사진 출처 - 오픈AI



과학적 추론

물리학, 화학, 생물학 등 다양한 과학 분야에서 박사 수준의 정확성을 보여줍니다.


사진 출처 - 오픈AI

 


  1. PhD 수준의 정확성o1-preview는 물리학, 화학, 생물학 분야의 복잡한 문제를 해결하는 데 있어 인간 PhD 학생들과 유사한 수준의 정확성을 보여줍니다.
  2. GPQA 벤치마크 성과GPQA(General Physics Question Answering) 벤치마크에서 인간 PhD 수준을 넘어서는 정확도를 달성했습니다.
  3. 복잡한 과학적 문제 해결다단계 추론이 필요한 복잡한 과학적 문제를 해결하는 데 탁월한 능력을 보여줍니다.





수학적 문제 해결


미국 수학 올림피아드 예선에서 상위권 성적을 거둘 정도로 뛰어난 수학 능력을 자랑합니다.


사진 출처 - 오픈AI



OpenAI의 o1 모델은 수학과 코딩 분야에서 뛰어난 성과를 보였습니다. 국제 수학 올림피아드(IMO) 자격시험에서 GPT-4o가 문제의 13%를 푼 반면, o1은 83%의 정확도를 기록했습니다. 또한, Codeforces 대회에서는 상위 89번째 백분위수에 도달하며, AI의 복잡한 문제 해결 능력이 입증되었습니다. 이는 o1 모델이 수학과 프로그래밍 문제를 해결하는 데 있어 매우 높은 수준의 성능을 발휘한다는 것을 의미합니다.




 업그레이드된 코딩 능력


Codeforces 경쟁에서 상위 89번째 백분위에 랭크될 만큼 뛰어난 프로그래밍 실력을 보여줍니다.



사진 출처 - 오픈AI



Codeforces 대회에서 OpenAI의 o1 모델은 Elo 등급 1807을 기록하며 참가자의 93%보다 우수한 성과를 달성했습니다. 이는 이전 GPT-4o 모델이 11번째 백분위수에 머물렀던 것과 비교해 큰 발전을 보여줍니다. 이러한 결과는 o1 모델의 코딩 및 알고리즘 문제 해결 능력이 크게 개선되었음을 입증하며, AI가 복잡한 프로그래밍 작업에서도 뛰어난 성과를 낼 수 있음을 시사합니다.






사진 출처 - 오픈AI



위 이미지에서 보면 한국인이 아니면 읽고 이해하기 힘들도록 일부러 잘못 작성한 한글도 'OpenAI o1'생각하고 추론하는 시간을 거친 뒤에 문자를 해석해 내고 있습니다. 오타를 넘어 단어가 완전히 파괴된 문장을 해석하는 모습을 보면 앞으로 AI가 어디까지 어떻게 발전해 나갈지 무섭기도 한 것 같습니다.







사진 출처 - 오픈AI



OpenAI는 개발자들에게 더 효율적인 솔루션을 제공하기 위해, 코딩에 효과적이고 더 빠르며 저렴한 추론 모델인 'o1-mini'를 동시에 공개했습니다. o1-mini는 기존의 o1-preview 모델보다 80% 저렴한 비용으로 사용할 수 있습니다.




STEM 분야 추론에 최적화된 o1-mini


사진 출처 - 오픈AI



o1-mini는 사전 학습 단계에서 STEM 분야의 추론에 최적화된 더 작은 모델입니다. 여기서 STEM은 과학(Science), 기술(Technology), 공학(Engineering), 수학(Mathematics), 네 가지 학문 분야를 통합적으로 지칭합니다.


STEM 분야는 논리적 사고력과 문제 해결 능력을 요구하며, 현대 사회에서 기술 혁신과 경제 발전의 핵심 동력으로 여겨집니다. o1-mini는 이러한 STEM 분야의 추론에 특화되어 있어, 복잡한 문제를 효율적으로 해결할 수 있습니다.


사진 출처 - 오픈AI


o1-mini는 GPQA(과학 분야의 질문 답변)에서는 GPT-4o보다, MATH-500 같은 추론 능력이 필요한 일부 학업 벤치마크 테스트에서 o1-preview보다 우수한 성과를 보였습니다. 이는 o1-mini복잡한 과학 문제나 수학 문제를 해결하는 데 강점이 있다는 것을 의미합니다.


그러나 o1-mini는 MMLU와 같은 과제에서는 GPT-4o만큼 좋은 성과를 내지 못했습니다. MMLU는 다양한 학문 분야의 지식을 평가하는 테스트로, 광범위한 세계 지식이 필요합니다. 또한, o1-mini는 이러한 광범위한 지식이 부족하기 때문에 GPQA에서조차도 o1-preview보다 성능이 떨어지는 모습을 보였습니다.


*MMLU는 Massive Multitask Language Understanding의 약자로, 다양한 분야에서 언어 모델의 지식과 이해력을 평가하는 벤치마크 테스트입니다. 역사, 과학, 수학 등 여러 과목의 질문을 통해 모델이 얼마나 폭넓고 깊은 지식을 가지고 있는지 측정합니다.




기술의 발전은 우리의 선택과 활용에 따라 그 가치가 결정됩니다.  빠르게 변화하는 시대에 발맞춰 AI 기술을 적극적으로 도입하여 업무의 효율을 높이고 나의 커리어에 새로운 기회를 만들어 나가시길 바랍니다. 




원더스랩은 AI가 비즈니스의 목적에 맞게 

'잘' 도입될 수 있도록 지원합니다.

AI 활용 및 도입에 대한 고민이 있으시다면, 

언제든지 문의해 주세요🙂




WondersLab.

(주)원더스랩 | 대표 : 한의선

이메일 : wwproject@wonderslab.kr

사업장 주소 :

(제주) 제주특별자치도 제주시 중앙로 217 3층

(판교) 경기도 성남시 분당구 성남대로 779번지 6 1층

사업장 등록번호 : 476-87-01809

직업정보제공사업 신고번호 : J151602020230001

통신판매업신고번호 : 제 2023-성남분당A-1150호

Wonderslab.

(주)원더스랩 | 대표 : 한의선

이메일 : wwproject@wonderslab.kr

사업장 주소 :

(제주) 제주특별자치도 제주시 중앙로 217 3층

(판교) 경기도 성남시 분당구 성남대로 779번지 6

사업자 등록번호 : 476-87-01809

직업정보제공사업 신고번호 : J151602020230001

통신판매업신고번호: 제2023-성남분당A-1150호

카카오톡 채널 채팅하기 버튼