본문으로 건너뛰기
피드

오픈AI, 끊어 말해도 알아듣는 실시간 음성 모델 공개

ai-ml 약 5분

오픈AI가 사람 대화처럼 끼어들기, 말 고치기, 말투 조절을 처리하는 실시간 음성 모델 ‘GPT-리얼타임-2’를 공개했다. 실시간 번역과 받아쓰기 모델도 함께 나왔고, 질로와 도이체텔레콤 같은 기업 적용 사례까지 붙었다.

  • 1

    GPT-리얼타임-2는 GPT-5급 추론 능력과 자연스러운 대화 흐름 처리를 내세운 음성 모델

  • 2

    실시간 번역 모델과 실시간 받아쓰기 모델도 같이 공개돼 음성 인터페이스 제품군이 넓어짐

  • 3

    질로는 음성 매물 검색과 방문 예약, 도이체텔레콤은 다국어 고객 지원 번역을 테스트 중

  • 4

    조니 아이브의 스타트업 인수 이후 준비 중인 오픈AI 자체 AI 기기와도 연결되는 흐름

  • 오픈AI가 새 실시간 음성 모델 ‘GPT-리얼타임-2’를 공개함

    • 핵심은 사용자가 AI 답변 중간에 끼어들거나, 방금 한 말을 고쳐 말해도 바로 반응한다는 점임
    • 기존 음성 AI처럼 “네 차례, 내 차례”로 딱딱하게 주고받는 구조를 줄이고, 실제 사람 대화의 끊김과 수정까지 처리하겠다는 방향임
  • 모델 성격은 꽤 공격적임. 오픈AI는 GPT-5급 추론 능력과 자연스러운 대화 행태 반영을 같이 내세움

    • 상황에 따라 말투를 조절할 수 있고, 개발자는 빠른 답변이 필요한 업무와 신중한 답변이 필요한 업무에 맞춰 추론 수준을 고를 수 있음
    • 음성 인터페이스에서도 “속도냐 정확도냐”를 제품 요구사항에 맞춰 조정하는 식으로 가는 셈임
  • 같이 공개된 모델도 음성 제품군을 통째로 넓히는 쪽임

    • ‘GPT-리얼타임-트랜슬레이트’는 실시간 음성 번역 모델
    • ‘GPT-리얼타임-위스퍼’는 실시간 받아쓰기 모델
    • 오픈AI 설명대로면 음성 AI가 단순 문답을 넘어서 듣고, 추론하고, 번역하고, 받아 적고, 작업까지 수행하는 쪽으로 진화 중임

중요

> 포인트는 음성 인식 하나가 아니라 “실시간 대화 흐름을 유지하는 AI 인터페이스”임. 앱 개발자에게는 화면 UI 못지않게 음성 UX 설계가 중요해질 수 있음.

  • 기업 도입 사례도 이미 붙어 있음

    • 부동산 플랫폼 질로는 사용자가 음성으로 조건을 말하면 매물을 찾고 방문 일정까지 잡아주는 음성 비서를 만들고 있음
    • 도이체텔레콤은 고객이 가장 편한 언어로 상담할 수 있게 실시간 번역 고객 지원 서비스를 테스트 중임
    • 둘 다 “음성으로 검색한다” 수준이 아니라, 업무 흐름 안에서 행동까지 이어지는 케이스임
  • 이 발표가 오픈AI 자체 AI 기기 준비와 연결된다는 해석도 나옴

    • 오픈AI는 애플 제품 디자인을 이끌었던 조니 아이브의 스타트업 ‘io’를 지난해 65억 달러에 인수했음
    • 후보로는 스마트 안경, 옷에 붙이는 핀 형태 기기, 스마트 스피커 등이 거론됨
    • 궈밍치 분석가는 오픈AI가 AI 에이전트 기능을 넣은 자체 스마트폰을 개발 중이라는 관측도 내놨음
  • 챗GPT 안전 기능도 같이 확대됨

    • ‘신뢰할 수 있는 연락처’ 기능은 대화 중 자해 등 정신건강 위기 신호를 감지하면 미리 지정한 가족이나 친구에게 알림을 보내도록 연결함
    • 청소년 계정에 있던 기능을 성인 계정까지 확대한 것임

기술 맥락

  • 이번 선택의 핵심은 음성을 텍스트 입력의 보조 수단이 아니라, AI 제품의 주 인터페이스로 보겠다는 거예요. 스마트 안경이나 핀 같은 기기는 화면이 작거나 없을 수밖에 없어서, 자연스러운 음성 대화가 제품 완성도를 좌우하거든요.

  • 기존 음성 챗봇은 사용자가 말하고, AI가 답하고, 다시 사용자가 말하는 턴 기반 구조가 많았어요. 그런데 실제 대화는 중간에 끊고, 정정하고, 말투를 바꾸는 일이 흔해서 이 흐름을 못 따라가면 금방 어색해져요.

  • 개발자에게 중요한 지점은 추론 수준을 업무별로 조절할 수 있다는 부분이에요. 고객 응대처럼 지연이 민감한 작업은 빠른 응답이 필요하고, 예약·계약·의료 같은 작업은 느려도 신중한 답변이 더 중요하거든요.

  • 실시간 번역과 받아쓰기를 같이 공개한 것도 이유가 있어요. 음성 에이전트가 제대로 일하려면 먼저 듣고, 텍스트로 구조화하고, 필요하면 언어를 바꾸고, 그다음 실제 업무를 수행하는 파이프라인이 필요하기 때문이에요.

음성 모델이 단순 음성 인식에서 ‘대화 중 끼어들어도 맥락을 이어가는 인터페이스’로 넘어가고 있음. 개발자 입장에선 챗봇 화면보다 음성 기반 에이전트와 디바이스 쪽 API 수요가 더 빨리 커질 수 있다는 신호임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

앤트로픽이 스페이스X 데이터센터를 쓰는 이유, AI 권력이 컴퓨팅으로 이동 중

앤트로픽이 스페이스X의 멤피스 콜로서스 I 데이터센터를 쓰는 계약을 맺었다는 보도다. 300MW 이상, 엔비디아 GPU 22만 개 이상 규모의 컴퓨팅 용량이 언급됐고, 폭증하는 AI 수요와 낮은 칩 가동률을 맞교환하는 거래로 해석된다.

ai-ml

AI 생산성 2.5%가 미국 39조 달러 부채를 구할 수 있을까

예일대 예산연구소 모델링에 따르면 AI가 향후 5년간 생산성을 매년 2.5% 끌어올리고 고용이 유지되면 미국의 2035년 재정 적자와 부채 비율이 크게 안정될 수 있다. 하지만 AI가 노동자를 대체해 실업 지원 비용이 커지면 생산성 이득 상당 부분이 상쇄될 수 있다는 경고도 함께 나온다.

ai-ml

AI 도입보다 어려운 건 IP 워크플로우 다시 짜기

IP와 R&D 업무에 AI를 붙였더니 초기 효율은 좋아졌지만, 시간이 지나자 모델별 품질 편차와 검증 부담이 새 병목으로 떠올랐다는 얘기다. 핵심은 특정 AI 도구를 더 사는 게 아니라, AI가 후보를 만들고 전문가가 검증하는 식으로 업무 흐름 자체를 재설계하는 데 있다.

ai-ml

클로드 코워크, 복붙 대신 PC를 직접 만지는 AI 에이전트로 가는 길

앤스로픽의 ‘클로드 코워크’는 챗봇처럼 답만 주는 도구가 아니라, PC 폴더와 파일을 직접 열고 정리하며 엑셀 결과물까지 만드는 에이전트형 업무 도구로 소개됐다. 영수증 사진 30장을 읽어 매장명·날짜·항목·금액을 표로 만들고 합계 수식이 들어간 엑셀 파일까지 생성하는 사례가 핵심이다.

ai-ml

국내 의료 AI, 전시용 기술에서 임상 현장 도구로 이동 중

AI 엑스포 코리아 2026에서 국내 의료 AI 기업들이 병원 문서 구조화, 안저 질환 진단 보조, 정신건강 관리 솔루션을 선보였다. 특히 녹내장 93%, 당뇨병성 망막병증 민감도 90% 같은 임상 성적을 내세우며 ‘기술 시연’보다 실제 현장 가치 증명에 초점을 맞췄다.