OpenAI의 새로운 음성 생성 모델은 이미지의 텍스트를 분석하고 읽을 수도 있습니다.(자료=Open AI 누리집 갈무리)오픈AI(OpenAI)가 8월 28일(현지시간) 실시간 음성 에이전트 전용 신형 모델 ‘gpt-realtime’과 함께 Realtime API를 정식(General Availability)으로 내놓았다. 기업·개발자는 원격 MCP 서버 연동, 이미지 입력, SIP(전화) 지원 등 새 기능을 통해 실제 서비스급 보이스 에이전트를 구축할 수 있다. 또한 신형 음성은 ‘Marin’과 ‘Cedar’ 2종이 추가됐다.
오픈AI는 gpt-realtime을 “가장 진보한 음성-대-음성 모델”로 소개하며 자연스러운 억양·감정·속도 제어와 미세 지시(“빠르고 전문적으로 말해줘” 등) 수행 능력을 강화했다고 밝혔다. 기존 다중 모델(음성인식→텍스트→음성합성)을 잇는 방식과 달리 단일 모델·단일 API로 오디오를 직접 처리해 지연을 줄이고 뉘앙스를 보존한다.
성능 지표도 상향됐다. 오디오 추론 능력을 보는 Big Bench Audio에서 82.8%(2024년 12월 모델 65.6%), 지시 준수 정확도를 재는 MultiChallenge(오디오 버전)에서 30.5%(직전 20.6%), 복잡한 함수 호출 성능 ComplexFuncBench에서 66.5%(직전 49.7%)를 각각 기록했다. 긴 작업을 기다리는 동안에도 대화를 이어가는 비동기 함수 호출도 개선됐다.
원격 MCP 지원: 세션 설정에 원격 MCP 서버 URL을 넣으면 도구 호출을 자동 처리, 통합 부담을 크게 낮춘다.
이미지 입력: 오디오·텍스트와 함께 이미지·사진·스크린샷을 대화 맥락으로 전달, “무엇이 보이냐” 같은 질의가 가능하다.
추가 기능: SIP(공중전화망·PBX·데스크폰 연결), 재사용 가능한 프롬프트, 세밀한 컨텍스트/토큰 한도 제어 등이 포함됐다.
실시간 세션에 활성 분류기 등 다층 안전장치를 두고, 스팸·기만적 활용을 금지했다. EU 데이터 보관 지역(EU Data Residency)과 엔터프라이즈 프라이버시 약속도 적용된다. 음성 사전설정으로 음성 사칭 방지에 주력했다.
Realtime API와 gpt-realtime은 발표와 동시에 모두에게 제공된다. 미리보기였던 ‘gpt-4o-realtime-preview’ 대비 20% 인하된 가격으로, 오디오 입력 100만 토큰당 $32(캐시 입력 $0.40), 오디오 출력 100만 토큰당 $64가 책정됐다. 시작은 문서·플레이그라운드·프롬프트 가이드를 통해 가능하다.
주요 파트너(예: Zillow, T-Mobile, StubHub, Oscar Health, Lemonade)와의 현장 협업을 바탕으로 신뢰성과 저지연을 목표로 다듬었고, 콜센터·상담, 금융·헬스케어, 교육형 도우미 등 음성 퍼스트 업무에 즉시 투입할 수 있는 생산성·고객 경험 향상 축을 제시한다. [출처: OpenAI, 「Introducing gpt-realtime and Realtime API updates for production voice agents」(2025년 8월 28일)]