본문으로 건너뛰기
피드

오픈AI, 끊어 말해도 알아듣는 실시간 음성 모델 공개

ai-ml 약 5분
vote
0
댓글
북마크

오픈AI가 사람 대화처럼 끼어들기, 말 고치기, 말투 조절을 처리하는 실시간 음성 모델 ‘GPT-리얼타임-2’를 공개했다. 실시간 번역과 받아쓰기 모델도 함께 나왔고, 질로와 도이체텔레콤 같은 기업 적용 사례까지 붙었다.

  • 1

    GPT-리얼타임-2는 GPT-5급 추론 능력과 자연스러운 대화 흐름 처리를 내세운 음성 모델

  • 2

    실시간 번역 모델과 실시간 받아쓰기 모델도 같이 공개돼 음성 인터페이스 제품군이 넓어짐

  • 3

    질로는 음성 매물 검색과 방문 예약, 도이체텔레콤은 다국어 고객 지원 번역을 테스트 중

  • 4

    조니 아이브의 스타트업 인수 이후 준비 중인 오픈AI 자체 AI 기기와도 연결되는 흐름

  • 오픈AI가 새 실시간 음성 모델 ‘GPT-리얼타임-2’를 공개함

    • 핵심은 사용자가 AI 답변 중간에 끼어들거나, 방금 한 말을 고쳐 말해도 바로 반응한다는 점임
    • 기존 음성 AI처럼 “네 차례, 내 차례”로 딱딱하게 주고받는 구조를 줄이고, 실제 사람 대화의 끊김과 수정까지 처리하겠다는 방향임
  • 모델 성격은 꽤 공격적임. 오픈AI는 GPT-5급 추론 능력과 자연스러운 대화 행태 반영을 같이 내세움

    • 상황에 따라 말투를 조절할 수 있고, 개발자는 빠른 답변이 필요한 업무와 신중한 답변이 필요한 업무에 맞춰 추론 수준을 고를 수 있음
    • 음성 인터페이스에서도 “속도냐 정확도냐”를 제품 요구사항에 맞춰 조정하는 식으로 가는 셈임
  • 같이 공개된 모델도 음성 제품군을 통째로 넓히는 쪽임

    • ‘GPT-리얼타임-트랜슬레이트’는 실시간 음성 번역 모델
    • ‘GPT-리얼타임-위스퍼’는 실시간 받아쓰기 모델
    • 오픈AI 설명대로면 음성 AI가 단순 문답을 넘어서 듣고, 추론하고, 번역하고, 받아 적고, 작업까지 수행하는 쪽으로 진화 중임

중요

> 포인트는 음성 인식 하나가 아니라 “실시간 대화 흐름을 유지하는 AI 인터페이스”임. 앱 개발자에게는 화면 UI 못지않게 음성 UX 설계가 중요해질 수 있음.

  • 기업 도입 사례도 이미 붙어 있음

    • 부동산 플랫폼 질로는 사용자가 음성으로 조건을 말하면 매물을 찾고 방문 일정까지 잡아주는 음성 비서를 만들고 있음
    • 도이체텔레콤은 고객이 가장 편한 언어로 상담할 수 있게 실시간 번역 고객 지원 서비스를 테스트 중임
    • 둘 다 “음성으로 검색한다” 수준이 아니라, 업무 흐름 안에서 행동까지 이어지는 케이스임
  • 이 발표가 오픈AI 자체 AI 기기 준비와 연결된다는 해석도 나옴

    • 오픈AI는 애플 제품 디자인을 이끌었던 조니 아이브의 스타트업 ‘io’를 지난해 65억 달러에 인수했음
    • 후보로는 스마트 안경, 옷에 붙이는 핀 형태 기기, 스마트 스피커 등이 거론됨
    • 궈밍치 분석가는 오픈AI가 AI 에이전트 기능을 넣은 자체 스마트폰을 개발 중이라는 관측도 내놨음
  • 챗GPT 안전 기능도 같이 확대됨

    • ‘신뢰할 수 있는 연락처’ 기능은 대화 중 자해 등 정신건강 위기 신호를 감지하면 미리 지정한 가족이나 친구에게 알림을 보내도록 연결함
    • 청소년 계정에 있던 기능을 성인 계정까지 확대한 것임

기술 맥락

  • 이번 선택의 핵심은 음성을 텍스트 입력의 보조 수단이 아니라, AI 제품의 주 인터페이스로 보겠다는 거예요. 스마트 안경이나 핀 같은 기기는 화면이 작거나 없을 수밖에 없어서, 자연스러운 음성 대화가 제품 완성도를 좌우하거든요.

  • 기존 음성 챗봇은 사용자가 말하고, AI가 답하고, 다시 사용자가 말하는 턴 기반 구조가 많았어요. 그런데 실제 대화는 중간에 끊고, 정정하고, 말투를 바꾸는 일이 흔해서 이 흐름을 못 따라가면 금방 어색해져요.

  • 개발자에게 중요한 지점은 추론 수준을 업무별로 조절할 수 있다는 부분이에요. 고객 응대처럼 지연이 민감한 작업은 빠른 응답이 필요하고, 예약·계약·의료 같은 작업은 느려도 신중한 답변이 더 중요하거든요.

  • 실시간 번역과 받아쓰기를 같이 공개한 것도 이유가 있어요. 음성 에이전트가 제대로 일하려면 먼저 듣고, 텍스트로 구조화하고, 필요하면 언어를 바꾸고, 그다음 실제 업무를 수행하는 파이프라인이 필요하기 때문이에요.

음성 모델이 단순 음성 인식에서 ‘대화 중 끼어들어도 맥락을 이어가는 인터페이스’로 넘어가고 있음. 개발자 입장에선 챗봇 화면보다 음성 기반 에이전트와 디바이스 쪽 API 수요가 더 빨리 커질 수 있다는 신호임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

알파벳, AI 인프라에 1,850억 달러 베팅…구글 클라우드가 성장축으로 부상

모틀리풀은 알파벳이 AI 인프라에 대규모 설비투자를 이어가면서 향후 5년간 주가가 두 배 이상 오를 여지가 있다고 분석했다. 올해 설비투자는 1,800억~1,900억 달러로 예상되며, 구글 클라우드 매출은 1분기에 전년 대비 63% 증가했다.

ai-ml

넥슨은 AI 에이전트를 ‘소유’하려 했고, 크래프톤은 AI 도구를 ‘관리’하기로 했다

NDC 2026 대담에서 넥슨과 크래프톤이 사내 AI 전환 전략을 꽤 솔직하게 공개했다. 넥슨은 오픈소스 AI 에이전트 오픈클로의 전사 도입을 시도했다가 보안·운영·비용 문제로 보류했고, 크래프톤은 상용 AI 도구를 대시보드로 관리하는 방식을 택했다.

ai-ml

일본 병원, 재활 요약지 작성에 생성형 인공지능 써보니 시간은 57% 줄고 오류는 81.8%에서 나왔다

일본의 290병상 종합병원 연구진이 재활 요약지 작성에 생성형 인공지능과 엑셀 매크로를 결합한 워크플로를 도입해 실제 임상 현장에서 평가했음. 작성 시간 중앙값은 23분에서 10분으로 줄었지만, 무작위 검토한 문서 11건 중 9건에서 오류가 발견돼 사람의 최종 검토가 필수라는 결론이 나왔음.

ai-ml

야타브, 규제 산업용 인공지능 신뢰·검증 플랫폼을 비바테크에서 공개

야타브가 비바테크 2026에서 규제 산업을 겨냥한 인공지능 신뢰·검증 플랫폼을 공개했음. 입력 위협 방어, 답변 진위 검증, 기업 내부 지식 기반 검색·추론, 업무 자동화, 산업별 전용 모델 구축까지 한 플랫폼으로 묶는 전략임.

ai-ml

안양시가 피지컬 인공지능 산업 키우겠다고 두 번째 전략 회의 열었다

안양시가 제조업, 로봇, 인공지능을 결합한 피지컬 인공지능 산업 생태계 조성을 논의했음. 아직 구체적인 기술 구현이나 예산이 나온 단계는 아니지만, 지역 제조 기반을 인공지능 산업 전략으로 연결하려는 정책 초기 움직임으로 볼 수 있음.