본문으로 건너뛰기
피드

오픈AI, 실시간 음성 번역·전사 모델을 API에 추가

ai-ml 약 5분

오픈AI가 Realtime API에 음성 추론, 실시간 통역, 라이브 전사 모델을 새로 추가했어. GPT-Realtime-2는 대화 중 복잡한 요청을 처리하고, GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 실시간 변환하며, GPT-Realtime-Whisper는 대화가 진행되는 동안 전사를 맡아.

  • 1

    오픈AI가 API에 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 추가

  • 2

    실시간 통역은 70개 이상 입력 언어와 13개 출력 언어를 지원

  • 3

    라이브 전사는 대화가 진행되는 동시에 음성을 텍스트로 캡처

  • 4

    가격은 GPT-Realtime-2는 토큰 기준, 통역과 전사는 분 단위 과금

  • 오픈AI가 API에 새 음성 인텔리전스 기능 3개를 추가함

    • 고객 서비스 자동화, 교육, 미디어, 이벤트, 크리에이터 플랫폼을 겨냥한 업데이트
    • 핵심 방향은 단순 음성 질의응답을 넘어 대화 중 작업을 처리하는 인터페이스임
    • 개발자는 Realtime API를 통해 세 모델을 사용할 수 있음
  • 첫 번째는 GPT-Realtime-2임

    • 기존 GPT-Realtime-1.5의 후속 음성 모델
    • GPT-5급 추론 능력을 탑재했다고 소개됨
    • 말만 주고받는 게 아니라 복잡한 사용자 요청을 대화 중에 처리하는 쪽으로 설계됨
  • 두 번째는 GPT-Realtime-Translate임

    • 실시간 통역을 담당하는 모델
    • 70개 이상의 입력 언어를 이해하고 13개 출력 언어로 변환함
    • 사용자의 대화 속도에 맞춰 따라가는 방식으로 작동한다고 설명됨

중요

> 실시간 통역에서 중요한 건 번역 품질만이 아니라 지연 시간임. 말하는 속도를 따라가지 못하면 회의나 상담 UX가 바로 무너짐.

  • 세 번째는 GPT-Realtime-Whisper임

    • 음성을 텍스트로 바꾸는 라이브 전사 모델
    • 대화가 진행되는 동시에 내용을 캡처하는 용도
    • 회의록, 고객 상담 기록, 라이브 자막 같은 기능을 만들 때 직접적인 재료가 됨
  • 오픈AI가 강조하는 변화는 ‘듣고 끝’이 아니라 ‘듣고 행동’임

    • 대화가 펼쳐지는 동안 듣고, 추론하고, 번역하고, 전사하고, 필요한 행동까지 취하는 음성 인터페이스를 지향함
    • 콜센터 봇만이 아니라 교육 튜터, 이벤트 통역, 크리에이터 도구까지 적용 범위를 넓게 잡음
    • 음성 기반 앱의 기본 단위가 녹음 파일 처리에서 실시간 세션 처리로 이동하는 느낌임
  • 안전장치도 같이 들어감

    • 스팸, 사기, 유해 콘텐츠 생성에 악용되는 상황을 막기 위한 가이드라인 기반 중단 기능이 포함됨
    • 위반이 감지되면 대화가 중단되는 구조
    • 음성 AI는 피싱이나 사칭과 바로 연결될 수 있어서 이 부분은 꽤 현실적인 요구임
  • 과금 방식은 모델별로 다름

    • GPT-Realtime-2는 토큰 소비량 기준으로 청구됨
    • GPT-Realtime-Translate와 GPT-Realtime-Whisper는 분 단위 과금
    • 실시간 서비스는 사용 시간이 곧 비용으로 이어지기 때문에, 제품 설계 단계에서 세션 길이와 대기 시간을 같이 봐야 함

기술 맥락

  • Realtime API가 중요한 이유는 음성 앱의 병목이 모델 성능만이 아니기 때문이에요. 사용자가 말하고, 모델이 듣고, 답이 나오기까지의 지연이 UX를 거의 결정하거든요.

  • GPT-Realtime-2는 음성 입력을 단순 텍스트로 바꿔 답하는 단계를 넘어서려는 선택이에요. 대화 중에 사용자의 의도를 이해하고 작업까지 처리해야 고객 상담이나 교육 시나리오에서 쓸모가 생겨요.

  • 통역과 전사를 별도 모델로 둔 것도 실무적이에요. 실시간 번역은 지연과 언어 지원 범위가 중요하고, 전사는 정확한 기록과 후처리가 중요해서 제품 요구사항이 서로 다르거든요.

  • 분 단위 과금은 개발자가 꼭 봐야 하는 부분이에요. 실시간 음성 서비스는 연결을 오래 열어두는 구조가 많아서, 대기 시간과 무음 처리 정책이 곧 비용 최적화 포인트가 돼요.

음성 AI가 ‘말 알아듣는 챗봇’에서 ‘듣고, 판단하고, 번역하고, 기록하고, 행동하는 인터페이스’로 가는 흐름이 더 뚜렷해졌어. 개발자 입장에선 콜센터, 교육, 회의, 크리에이터 도구에서 음성 UX를 다시 설계할 만한 재료가 늘어난 셈이야.

댓글

댓글

댓글을 불러오는 중...

ai-ml

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.