"딥시크, 中 물리 경시대회서 챗GPT 제쳐"

중국과학원 주관 테스트에서 최고 점수 기록

이 기사를 공유합니다

가

중국의 인공지능(AI) 스타트업 딥시크(DeepSeek)가 개발한 최신 AI 모델이 물리학 문제 해결 능력에서 챗GPT(ChatGPT)를 앞섰다는 주장이 중국에서 나왔다.

31일 연합뉴스에 따르면 중국과학원 물리연구소는 지난 30일 소셜미디어 공식 계정을 통해 '톈무(天目)배 이론물리 경시대회'에서 출제된 문제를 AI 모델들에게 풀게 한 결과를 공개했다. 이번 테스트는 중국 장쑤성에서 17일에 개최된 경시대회 문제를 활용해 진행됐다.

연구소 측은 "AI 응답을 통해 시험 진행 방식에 대한 이해도를 확인한 후 시험을 시작했다"며 "총 7개 문제에 대해 순차적으로 답안을 받았으며, 답안에 대해서는 중간에 어떤 피드백도 제공하지 않았다"고 설명했다.

테스트에는 딥시크의 R1, 오픈AI의 GPT-4, 앤스로픽의 클로드 소넷 등 3개 AI 모델이 참여했다. 채점 결과 140점 만점에 딥시크가 100점으로 1위를 차지했고, 챗GPT가 97점으로 2위, 클로드 소넷이 71점으로 3위를 기록했다.

그러나 연구소는 AI 모델들의 성적이 인간 참가자들과 비교했을 때 아직 격차가 있다고 지적했다. 딥시크의 점수는 이번 대회 참가자들 중 3등 수준이었으며, 인간 최고점인 125점과는 상당한 차이를 보였다.

연구소는 "AI의 사고 과정이 뛰어난 것은 사실이나, 기본적 실수에서 헤매는 경향이 있는 것으로 나타났다"고 분석했다.

또한 각 AI 모델의 특성에 대해서도 언급했다. "딥시크와 비교하면 챗GPT의 답안은 인간이 작성한 것과 더 유사한 스타일을 보였다"며 "챗GPT가 증명 문제에서 상대적으로 높은 점수를 기록했다"고 설명했다.

반면 딥시크는 '증명'의 의미를 제대로 이해하지 못한 것으로 나타났다. 연구소는 "딥시크는 증명해야 할 결론을 재서술했을 뿐 증명 과정을 답안에 포함하지 않았다"고 지적했다.