Gemini 3.1 Flash Live: 음성 AI의 새로운 기준이 될까?

안녕하세요, Tom입니다.

Google이 Gemini 3.1 Flash Live를 공개했어요. 이름에서 알 수 있듯이 실시간 음성 대화에 특화된 모델인데, 이미 Google 제품 전반에 적용되기 시작했어요. Search Live가 200개국 이상으로 확대된 것도 이 모델 덕분이고요.

음성 AI 분야가 정말 빠르게 발전하고 있는데, 이번 모델은 어떤 점이 다른지 살펴볼게요.

Gemini 3.1 Flash Live란?

Google의 최신 실시간 오디오/음성 모델이에요. 기존 Gemini 2.5 Flash Native Audio의 후속으로, 대화의 자연스러움과 신뢰성을 크게 끌어올린 게 특징이에요.

핵심 포인트:

숫자가 꽤 인상적이에요.

ComplexFuncBench Audio (복잡한 함수 호출): 90.8% — 이전 모델들을 모두 앞섬
Scale AI Audio MultiChallenge (중단/망설임이 포함된 복잡한 지시 따르기): thinking 모드에서 36.1%

특히 ComplexFuncBench에서 90%를 넘긴 건 의미가 큰데, 이건 음성으로 복잡한 도구 호출을 얼마나 정확하게 수행하는지를 측정하는 벤치마크예요. 음성 에이전트를 만들 때 가장 중요한 지표 중 하나죠.

단순히 "무슨 말을 했는지"만 듣는 게 아니라, 어떻게 말했는지도 이해해요. 피치, 속도, 감정적 뉘앙스를 파악해서 사용자가 짜증을 내거나 혼란스러워하면 응답 방식을 동적으로 조절한다고 해요.

이건 실제 고객 상담이나 교육용 AI를 만들 때 꽤 중요한 차이를 만들 수 있어요.

이전 모델 대비 대화 스레드를 2배 더 오래 추적할 수 있어요. 긴 대화에서 앞부분 맥락을 잊어버리는 문제가 줄어든다는 뜻이죠.

주변 소음이 있는 환경에서도 음성을 잘 인식한다고 해요. 카페에서 쓰거나 이동 중에 쓸 때 체감이 클 것 같아요.

음성으로 코딩 지시를 내리는 "바이브 코딩"도 지원해요. "이 함수에 에러 핸들링 추가해줘" 같은 음성 명령으로 코드를 작성할 수 있다는 건데, 아직은 초기 단계지만 방향성이 흥미로워요.

Gemini Live API를 통해 Google AI Studio에서 바로 프리뷰를 사용해볼 수 있어요. 엔터프라이즈 환경에서는 Gemini Enterprise for Customer Experience를 통해 접근할 수 있고요.

음성 에이전트를 만들고 있다면 한 번 테스트해볼 가치가 있어요. 특히 ComplexFuncBench 90.8%라는 숫자는, 복잡한 도구 호출이 필요한 음성 에이전트에서 신뢰할 수 있는 수준에 도달했다는 의미니까요.

참고: 모든 오디오 출력에는 SynthID 워터마크가 포함돼요. AI가 생성한 음성인지 감지할 수 있는 비가청 워터마크인데, 안전성 측면에서 좋은 접근이에요.

Gemini 3.1 Flash Live는 "음성 AI가 이제 진짜 쓸 만한 수준에 왔구나"라는 느낌을 주는 모델이에요. 벤치마크 숫자도 인상적이고, 이미 200개국에 배포된 점에서 Google의 자신감이 느껴지죠.

음성 기반 AI 서비스를 준비하고 있다면, 지금이 테스트해볼 타이밍이에요.