본문 바로가기
  • Godicc's IT에 방문해주셔서 감사합니다
기타 해외 IT/News

Anthropic, 하이브리드 모델 Claude 3.7 Sonnet 발표 (+Claude Code)

by 고딕 Godicc 2025. 2. 27.

Anthropic에서 지난 2월 25일 자사의 최신 언어 모델 Claude 3.7 Sonnet과 CLI 코딩 도구 Claude Code를 공개했습니다.

Claude 3.7 Sonnet은 기존 3.5 Sonnet의 개선 버전으로 특히 코딩 능력이 크게 향상됐습니다.

Claude Code의 경우 터미널에서 바로 AI를 사용할 수 있는 CLI 코딩 도구입니다.

 

Claude 3.7 Sonnet - 업계 최초 하이브리드 모델

Claude 3.7 Sonnet은 현재 LLM 업계 최초로 하이브리드 모델로 출시되었습니다.

아직 출시되지 않은 OpenAI의 GPT-5처럼 비추론형과 추론형이 모두 결합된 모델로, 사용자의 질문에 따라 비추론형을 사용하거나 추론형을 사용하여 답변하는 방식입니다. (OpenAI GPT-5 알아보기)

이러한 하이브리드 모델은 기존 모델들과 달리 상황에 따라 빠른 응답과 깊은 사고를 유연하게 조절할 수 있다는 특징이 있습니다.

또한, 기존처럼 비추론형 모델과 추론형 모델을 사용자가 선택할 필요 없이 AI가 자체적으로 선택하기 때문에 사용자는 더 편리해집니다.

Claude 3.7 Sonnet에는 ‘Extended Thinking Mode(확장 사고 모드)’가 새롭게 추가됐습니다.

이 모드를 사용하면 질문에 답변하기 전, 스스로 다시 답변을 검토하며 수학, 물리학, 코딩, 복잡한 문제 해결 및 기타 여러 작업에서 성능이 향상되어 일반 모드일 때보다 더욱 정확한 답변을 제공합니다.

‘확장 사고 모드’는 xAI의 최신 모델 Grok-3에도 추가된 ‘Big Brain’ 모드와 유사합니다.

필요한 상황에서 더 많은 GPU를 사용하여 고성능 연산을 가능하게 합니다.

 

Claude 3.7 Sonnet - 성능

Claude 3.7 Sonnet는 현재 업계 최고 수준의 성능을 보여줍니다.

위 표에서 ‘/’ 앞에 적힌 점수는 일반적인 방법으로 테스트한 점수이며, ‘/’ 뒤에 적힌 점수는 병렬 테스트 샘플링을 통해 개선된 점수입니다.

MMMLU(다양한 언어를 사용한 이해력 및 추론 능력 평가)에서 OpenAI o3-mini-high보다 높은 점수를 기록했습니다.

MMMU validation(대학 수준의 전문 지식과 추론 능력 평가) 역시 xAI의 Grok-3와 유사한 점수를 보여줬습니다.

GPQA(박사 수준의 과학 문제 해결 능력 평가)의 경우 추론형 모드일 때, 78.2%로 현재 사용 가능한 추론형 모델 중 가장 성능이 좋은 OpenAI o3-mini-high와 최근 출시된 Grok-3와 유사한 점수를 보여줍니다. (Grok-3는 현재 오픈 베타 테스트 단계입니다.)

비추론형 모드에서 벤치마크 점수는 기존의 비추론형 모델이었던 Claude 3.5 Sonnet보다 조금 더 나은 점수를 기록했습니다.

다만 수학 능력을 판단하는 AIME’24에서는 다른 모델들에 비해 좋지 못한 성능을 보여줬습니다.

모두 동일한 추론형 모델임에도 불구하고 OpenAI o1보다도 낮은 점수를 기록했습니다.

 

하지만 Anthropic은 Claude 3.7 Sonnet의 장점은 크게 개선된 코딩 능력이라고 설명했습니다.

Anthropic 발표 자료에 따르면, Claude 3.7 Sonnet은 초기 테스트에서 전반적인 코딩 능력이 업계 모델을 선도하는 수준의 성능을 보여주었다고 말했습니다.

AI가 직접 코드 작성, 수정 및 디버깅하는 능력을 평가하는 SWE-Bench에서 Claude 3.7 Sonnet은 이전 세대 Claude 3.5 Sonnet을 포함해 다른 회사들의 최신 추론형 모델의 성능보다 압도적으로 높은 퍼포먼스를 보여줬습니다.

또한, AI가 외부 프로그램(Tools)를 사용해 직접 문제를 해결하는 능력을 평가하는 TAU-Bench에서 Claude 3.7 Sonnet은 Retail과 Airline 두 분야 모두 다른 언어 모델보다 월등한 성능을 기록했습니다.

 

Claude 3.7 Sonnet 가격 구조는 기존 모델과 동일합니다.

입력 토큰 100만개당 3달러이며, 출력 토큰 100만개당 15달러로 OpenAI o1의 가격인 60달러보다 저렴한 가격입니다.

 

Claude Code

Anthropic은 Claude 3.7 Sonnet와 함께 Claude Code라는 CLI 환경에서 사용하는 AI 코딩 에이전트 도구도 발표했습니다.

Claude Code는 터미널에서 사용할 수 있으며 사용자가 작성한 코드베이스를 이해하고 자연어 명령을 통해 더 빠른 코딩을 도와주는 코딩 에이전트 도구입니다.

개발 환경에 바로 탑재되어 별도의 설정 없이 바로 AI의 도움을 받을 수 있다는게 장점입니다.

 

Claude Code의 주요 기능으로는 ①코드베이스 전반의 파일 편집과 버그 수정, ②코드 아키텍처와 로직 질문 답변, ③테스트와 린팅(Linting) 및 기타 명령 실행 및 수정, ④git 히스토리 검색, 병합 충돌 해결, 커밋과 PR 생성입니다.

 

아직까지 Claude Code는 베타 버전이므로 불안정 할 수 있습니다.

Claude Code는 현재 베타 참여 신청이 마감되어 https://console.anthropic.com/code/welcome에서 대기자 명단 등록이 가능합니다.

댓글