---
title: "Microsoft 365 Copilot, GPT가 작성하고 Claude가 검증하는 멀티모델 체제 도입"
published: 2026-03-30T13:03:42.157Z
canonical: https://jeff.news/article/1378
---
# Microsoft 365 Copilot, GPT가 작성하고 Claude가 검증하는 멀티모델 체제 도입

Microsoft가 Copilot Cowork를 Frontier 프로그램으로 확대하고, Researcher 에이전트에 GPT 초안 작성 + Claude 검증의 멀티모델 Critique 기능을 추가함. Deep Research 벤치마크에서 경쟁 제품을 상회하는 성능을 보이며, 향후 양방향 검증으로 확장 예정임.

## 핵심 업데이트 요약

- Microsoft가 **Copilot Cowork**를 Frontier 프로그램 참여 기업 고객에게 확대 개방함
  - 3월 초 리서치 프리뷰로 제한 출시된 이후 첫 확대임
  - Anthropic의 Claude 기반으로 작동하며, 사용자가 의도한 결과를 설명하면 AI 에이전트가 계획 수립·추론·실행까지 독립적으로 수행함
- **Researcher 에이전트**에 "멀티모델 인텔리전스" 기반 **Critique 기능** 추가됨
  - GPT가 초안을 작성하고, Claude가 정확성·완전성·인용 무결성을 검증하는 구조
  - Microsoft AI at Work CMO Jared Spataro는 "향후 이 워크플로우가 양방향이 될 것"이라고 언급함
- **Council 모델** 도입으로 여러 LLM 응답을 나란히 비교 가능
  - 모델 간 동의·불일치 지점과 각 LLM의 강점을 확인할 수 있음

```mermaid
sequenceDiagram
    participant U as 사용자
    participant C as Copilot Researcher
    participant G as GPT (초안 작성)
    participant CL as Claude (검증)

    U->>C: 리서치 요청
    C->>G: 초안 작성 위임
    G->>C: 초안 반환
    C->>CL: 정확성·완전성·인용 검증 요청
    CL->>C: 검증 결과 및 피드백
    C->>U: 최종 검증된 리서치 결과 전달
```

## 성능 벤치마크

- Critique가 적용된 Researcher는 **Deep Research Accuracy, Completeness, and Objectivity** 벤치마크에서 경쟁 제품을 상회함
  - Perplexity Deep Research, Claude Opus, Gemini Deep Research, OpenAI Deep Research 대비 우수한 성능
- Salesforce, ServiceNow, Confluence 등 외부 데이터 소스 연결 시 할루시네이션 방지가 특히 중요하며, Critique가 이 품질 검증 역할을 수행함

## M365 Copilot 현황

- 이번 업데이트는 **M365 Copilot Wave 3**의 일부임
  - AI 인텔리전스와 엔터프라이즈 신뢰를 결합해, "시도해보는 도구"에서 "의존하는 도구"로의 전환을 목표함
- 1월 기준 유료 M365 Copilot 시트 수는 **1,500만 개**로, 전체 상업용 M365 구독의 **3%** 수준
  - 상업적 성장 여력이 여전히 큰 상태임

## 기술 맥락: 왜 GPT+Claude 멀티모델인가

- **단일 LLM의 한계**: 하나의 모델이 생성과 검증을 동시에 수행하면, 자기 편향(self-bias)으로 인해 자체 오류를 발견하기 어려움
- **교차 검증의 원리**: 서로 다른 학습 데이터와 아키텍처를 가진 모델이 교차 검증하면, 한쪽의 할루시네이션이나 인용 오류를 다른 쪽이 포착할 확률이 높아짐
  - GPT의 강점(광범위한 지식 생성)과 Claude의 강점(정밀한 지시 따르기, 인용 검증)을 상호보완적으로 활용하는 구조
- **양방향 확장 계획**: 현재는 GPT→Claude 단방향이지만, 향후 Claude가 작성하고 GPT가 검증하는 역방향도 추가될 예정
  - 이는 특정 태스크에 최적인 모델을 동적으로 선택하는 "모델 라우팅" 패러다임으로의 전환을 시사함
- **Council 모델의 의미**: 단순히 최고 모델을 고르는 것이 아니라, 복수 모델의 합의·불일치 지점을 투명하게 보여줌으로써 사용자가 판단 근거를 직접 평가할 수 있게 함

## 핵심 포인트

- Copilot Cowork가 Frontier 프로그램 참여 기업 고객에게 확대 개방됨 (Claude 기반)
- Researcher 에이전트에 Critique 기능 추가: GPT가 초안 작성, Claude가 정확성·완전성·인용 무결성 검증
- Deep Research Accuracy, Completeness, and Objectivity 벤치마크에서 Perplexity·Claude Opus·Gemini·OpenAI 대비 우수
- Council 모델로 복수 LLM 응답을 나란히 비교 가능
- M365 Copilot Wave 3의 일부이며, 유료 시트 1,500만 개(상업용 구독의 3%)

## 인사이트

단일 LLM 의존에서 벗어나 '생성-검증 분리'라는 멀티모델 패러다임이 엔터프라이즈 AI의 새로운 기준이 되고 있음. Microsoft가 경쟁사인 Anthropic 모델을 검증자로 채택한 것은, 정확성 확보가 벤더 충성도보다 중요해졌다는 시장 신호임.
