---
title: "오픈AI, 실시간 음성 번역·전사 모델을 API에 추가"
published: 2026-05-08T13:05:03.224Z
canonical: https://jeff.news/article/2460
---
# 오픈AI, 실시간 음성 번역·전사 모델을 API에 추가

오픈AI가 Realtime API에 음성 추론, 실시간 통역, 라이브 전사 모델을 새로 추가했어. GPT-Realtime-2는 대화 중 복잡한 요청을 처리하고, GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 실시간 변환하며, GPT-Realtime-Whisper는 대화가 진행되는 동안 전사를 맡아.

- 오픈AI가 API에 새 음성 인텔리전스 기능 3개를 추가함
  - 고객 서비스 자동화, 교육, 미디어, 이벤트, 크리에이터 플랫폼을 겨냥한 업데이트
  - 핵심 방향은 단순 음성 질의응답을 넘어 대화 중 작업을 처리하는 인터페이스임
  - 개발자는 Realtime API를 통해 세 모델을 사용할 수 있음

- 첫 번째는 GPT-Realtime-2임
  - 기존 GPT-Realtime-1.5의 후속 음성 모델
  - GPT-5급 추론 능력을 탑재했다고 소개됨
  - 말만 주고받는 게 아니라 복잡한 사용자 요청을 대화 중에 처리하는 쪽으로 설계됨

- 두 번째는 GPT-Realtime-Translate임
  - 실시간 통역을 담당하는 모델
  - 70개 이상의 입력 언어를 이해하고 13개 출력 언어로 변환함
  - 사용자의 대화 속도에 맞춰 따라가는 방식으로 작동한다고 설명됨

> [!IMPORTANT]
> 실시간 통역에서 중요한 건 번역 품질만이 아니라 지연 시간임. 말하는 속도를 따라가지 못하면 회의나 상담 UX가 바로 무너짐.

- 세 번째는 GPT-Realtime-Whisper임
  - 음성을 텍스트로 바꾸는 라이브 전사 모델
  - 대화가 진행되는 동시에 내용을 캡처하는 용도
  - 회의록, 고객 상담 기록, 라이브 자막 같은 기능을 만들 때 직접적인 재료가 됨

- 오픈AI가 강조하는 변화는 ‘듣고 끝’이 아니라 ‘듣고 행동’임
  - 대화가 펼쳐지는 동안 듣고, 추론하고, 번역하고, 전사하고, 필요한 행동까지 취하는 음성 인터페이스를 지향함
  - 콜센터 봇만이 아니라 교육 튜터, 이벤트 통역, 크리에이터 도구까지 적용 범위를 넓게 잡음
  - 음성 기반 앱의 기본 단위가 녹음 파일 처리에서 실시간 세션 처리로 이동하는 느낌임

- 안전장치도 같이 들어감
  - 스팸, 사기, 유해 콘텐츠 생성에 악용되는 상황을 막기 위한 가이드라인 기반 중단 기능이 포함됨
  - 위반이 감지되면 대화가 중단되는 구조
  - 음성 AI는 피싱이나 사칭과 바로 연결될 수 있어서 이 부분은 꽤 현실적인 요구임

- 과금 방식은 모델별로 다름
  - GPT-Realtime-2는 토큰 소비량 기준으로 청구됨
  - GPT-Realtime-Translate와 GPT-Realtime-Whisper는 분 단위 과금
  - 실시간 서비스는 사용 시간이 곧 비용으로 이어지기 때문에, 제품 설계 단계에서 세션 길이와 대기 시간을 같이 봐야 함

---

## 기술 맥락

- Realtime API가 중요한 이유는 음성 앱의 병목이 모델 성능만이 아니기 때문이에요. 사용자가 말하고, 모델이 듣고, 답이 나오기까지의 지연이 UX를 거의 결정하거든요.

- GPT-Realtime-2는 음성 입력을 단순 텍스트로 바꿔 답하는 단계를 넘어서려는 선택이에요. 대화 중에 사용자의 의도를 이해하고 작업까지 처리해야 고객 상담이나 교육 시나리오에서 쓸모가 생겨요.

- 통역과 전사를 별도 모델로 둔 것도 실무적이에요. 실시간 번역은 지연과 언어 지원 범위가 중요하고, 전사는 정확한 기록과 후처리가 중요해서 제품 요구사항이 서로 다르거든요.

- 분 단위 과금은 개발자가 꼭 봐야 하는 부분이에요. 실시간 음성 서비스는 연결을 오래 열어두는 구조가 많아서, 대기 시간과 무음 처리 정책이 곧 비용 최적화 포인트가 돼요.

## 핵심 포인트

- 오픈AI가 API에 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 추가
- 실시간 통역은 70개 이상 입력 언어와 13개 출력 언어를 지원
- 라이브 전사는 대화가 진행되는 동시에 음성을 텍스트로 캡처
- 가격은 GPT-Realtime-2는 토큰 기준, 통역과 전사는 분 단위 과금

## 인사이트

음성 AI가 ‘말 알아듣는 챗봇’에서 ‘듣고, 판단하고, 번역하고, 기록하고, 행동하는 인터페이스’로 가는 흐름이 더 뚜렷해졌어. 개발자 입장에선 콜센터, 교육, 회의, 크리에이터 도구에서 음성 UX를 다시 설계할 만한 재료가 늘어난 셈이야.
