---
title: "오픈AI, 끊어 말해도 알아듣는 실시간 음성 모델 공개"
published: 2026-05-07T19:05:04.060Z
canonical: https://jeff.news/article/2280
---
# 오픈AI, 끊어 말해도 알아듣는 실시간 음성 모델 공개

오픈AI가 사람 대화처럼 끼어들기, 말 고치기, 말투 조절을 처리하는 실시간 음성 모델 ‘GPT-리얼타임-2’를 공개했다. 실시간 번역과 받아쓰기 모델도 함께 나왔고, 질로와 도이체텔레콤 같은 기업 적용 사례까지 붙었다.

- 오픈AI가 새 실시간 음성 모델 ‘GPT-리얼타임-2’를 공개함
  - 핵심은 사용자가 AI 답변 중간에 끼어들거나, 방금 한 말을 고쳐 말해도 바로 반응한다는 점임
  - 기존 음성 AI처럼 “네 차례, 내 차례”로 딱딱하게 주고받는 구조를 줄이고, 실제 사람 대화의 끊김과 수정까지 처리하겠다는 방향임

- 모델 성격은 꽤 공격적임. 오픈AI는 GPT-5급 추론 능력과 자연스러운 대화 행태 반영을 같이 내세움
  - 상황에 따라 말투를 조절할 수 있고, 개발자는 빠른 답변이 필요한 업무와 신중한 답변이 필요한 업무에 맞춰 추론 수준을 고를 수 있음
  - 음성 인터페이스에서도 “속도냐 정확도냐”를 제품 요구사항에 맞춰 조정하는 식으로 가는 셈임

- 같이 공개된 모델도 음성 제품군을 통째로 넓히는 쪽임
  - ‘GPT-리얼타임-트랜슬레이트’는 실시간 음성 번역 모델
  - ‘GPT-리얼타임-위스퍼’는 실시간 받아쓰기 모델
  - 오픈AI 설명대로면 음성 AI가 단순 문답을 넘어서 듣고, 추론하고, 번역하고, 받아 적고, 작업까지 수행하는 쪽으로 진화 중임

> [!IMPORTANT]
> 포인트는 음성 인식 하나가 아니라 “실시간 대화 흐름을 유지하는 AI 인터페이스”임. 앱 개발자에게는 화면 UI 못지않게 음성 UX 설계가 중요해질 수 있음.

- 기업 도입 사례도 이미 붙어 있음
  - 부동산 플랫폼 질로는 사용자가 음성으로 조건을 말하면 매물을 찾고 방문 일정까지 잡아주는 음성 비서를 만들고 있음
  - 도이체텔레콤은 고객이 가장 편한 언어로 상담할 수 있게 실시간 번역 고객 지원 서비스를 테스트 중임
  - 둘 다 “음성으로 검색한다” 수준이 아니라, 업무 흐름 안에서 행동까지 이어지는 케이스임

- 이 발표가 오픈AI 자체 AI 기기 준비와 연결된다는 해석도 나옴
  - 오픈AI는 애플 제품 디자인을 이끌었던 조니 아이브의 스타트업 ‘io’를 지난해 65억 달러에 인수했음
  - 후보로는 스마트 안경, 옷에 붙이는 핀 형태 기기, 스마트 스피커 등이 거론됨
  - 궈밍치 분석가는 오픈AI가 AI 에이전트 기능을 넣은 자체 스마트폰을 개발 중이라는 관측도 내놨음

- 챗GPT 안전 기능도 같이 확대됨
  - ‘신뢰할 수 있는 연락처’ 기능은 대화 중 자해 등 정신건강 위기 신호를 감지하면 미리 지정한 가족이나 친구에게 알림을 보내도록 연결함
  - 청소년 계정에 있던 기능을 성인 계정까지 확대한 것임

---
## 기술 맥락

- 이번 선택의 핵심은 음성을 텍스트 입력의 보조 수단이 아니라, AI 제품의 주 인터페이스로 보겠다는 거예요. 스마트 안경이나 핀 같은 기기는 화면이 작거나 없을 수밖에 없어서, 자연스러운 음성 대화가 제품 완성도를 좌우하거든요.

- 기존 음성 챗봇은 사용자가 말하고, AI가 답하고, 다시 사용자가 말하는 턴 기반 구조가 많았어요. 그런데 실제 대화는 중간에 끊고, 정정하고, 말투를 바꾸는 일이 흔해서 이 흐름을 못 따라가면 금방 어색해져요.

- 개발자에게 중요한 지점은 추론 수준을 업무별로 조절할 수 있다는 부분이에요. 고객 응대처럼 지연이 민감한 작업은 빠른 응답이 필요하고, 예약·계약·의료 같은 작업은 느려도 신중한 답변이 더 중요하거든요.

- 실시간 번역과 받아쓰기를 같이 공개한 것도 이유가 있어요. 음성 에이전트가 제대로 일하려면 먼저 듣고, 텍스트로 구조화하고, 필요하면 언어를 바꾸고, 그다음 실제 업무를 수행하는 파이프라인이 필요하기 때문이에요.

## 핵심 포인트

- GPT-리얼타임-2는 GPT-5급 추론 능력과 자연스러운 대화 흐름 처리를 내세운 음성 모델
- 실시간 번역 모델과 실시간 받아쓰기 모델도 같이 공개돼 음성 인터페이스 제품군이 넓어짐
- 질로는 음성 매물 검색과 방문 예약, 도이체텔레콤은 다국어 고객 지원 번역을 테스트 중
- 조니 아이브의 스타트업 인수 이후 준비 중인 오픈AI 자체 AI 기기와도 연결되는 흐름

## 인사이트

음성 모델이 단순 음성 인식에서 ‘대화 중 끼어들어도 맥락을 이어가는 인터페이스’로 넘어가고 있음. 개발자 입장에선 챗봇 화면보다 음성 기반 에이전트와 디바이스 쪽 API 수요가 더 빨리 커질 수 있다는 신호임.
