Gemini 3.1 Flash TTS: AI 음성 생성의 감독석에 앉다

얼마 전 Gemini 3.1 Flash Live를 소개하면서 음성 AI가 실시간 대화 수준에 올라왔다는 이야기를 했는데요. 이번에는 그 반대편, 텍스트를 음성으로 바꾸는 TTS 쪽에서 큰 업데이트가 나왔어요.

Google이 Gemini 3.1 Flash TTS를 공개했어요. Flash Live가 "듣고 대화하는" 모델이었다면, Flash TTS는 "읽고 말하는" 모델이에요. 단순히 텍스트를 읽어주는 수준을 넘어서, 개발자가 음성의 스타일과 감정까지 세밀하게 연출할 수 있는 게 핵심이에요.

성능부터 보면

Artificial Analysis TTS 리더보드에서 Elo 1,211점을 기록했어요. 이 벤치마크는 수천 건의 블라인드 인간 선호도 평가를 기반으로 하는데, Artificial Analysis 측에서도 Gemini 3.1 Flash TTS를 높은 품질과 낮은 비용을 동시에 갖춘 "가장 매력적인 사분면"에 위치시켰어요.

숫자만 보면 현재 TTS 모델 중 최상위권이에요.

오디오 태그: 감독석에서 음성을 연출하다

이번 모델의 가장 큰 차별점은 오디오 태그(Audio Tags) 시스템이에요. 텍스트 입력에 자연어 명령을 직접 삽입해서 음성 출력을 세밀하게 조절할 수 있어요.

Google AI Studio에서 제공하는 구성 요소는 크게 세 가지예요.

Scene Direction (장면 연출): 환경과 맥락을 설정해요. 캐릭터의 성격, 대화 상황, 분위기를 정의하면 AI가 그에 맞게 음성을 조절해요. 여러 턴에 걸쳐 캐릭터가 일관성을 유지하도록 도와주는 역할이에요.

Speaker-level Specificity (화자별 설정): 각 캐릭터에 고유한 오디오 프로필을 부여하고, 속도, 톤, 억양 같은 요소를 개별적으로 지정할 수 있어요. 인라인 태그를 사용하면 문장 중간에서도 표현을 바꿀 수 있고요.

Seamless Export (설정 내보내기): Google AI Studio에서 만든 설정을 Gemini API 코드로 그대로 내보낼 수 있어요. 한번 만든 음성 캐릭터를 여러 프로젝트에서 일관되게 사용할 수 있다는 뜻이에요.

참고: 이 방식의 핵심은 별도의 음성 파라미터 조정이 아니라 자연어로 지시한다는 점이에요. "좀 더 따뜻하게, 속도는 천천히" 같은 식으로 제어할 수 있어요.

70개 이상 언어 지원

글로벌 스케일도 신경 썼어요. 70개 이상 언어에서 고품질 음성과 스타일 제어를 지원해요. 다국어 서비스를 만드는 개발자에게는 꽤 의미 있는 부분이에요. 각 언어별로 억양과 속도 제어가 가능하다는 건, 단순 번역 TTS와는 확실히 다른 수준이죠.

어디서 쓸 수 있나

현재 세 가지 경로로 접근 가능해요.

개발자: Gemini API와 Google AI Studio에서 프리뷰로 사용 가능
엔터프라이즈: Vertex AI에서 프리뷰 제공
Workspace 사용자: Google Vids에 통합

주의: 아직 프리뷰 단계예요. 프로덕션에 바로 적용하기보다는 테스트와 프로토타이핑 용도로 시작하는 걸 추천해요.

Flash Live와의 관계

이전에 소개한 Flash Live가 실시간 양방향 음성 대화에 초점을 맞춘 모델이라면, Flash TTS는 단방향 음성 생성에 특화되어 있어요. 오디오북, 내레이션, 캐릭터 보이스, 안내 음성 같은 시나리오에서 진가를 발휘할 모델이에요.

둘 다 SynthID 워터마크가 적용돼요. AI 생성 음성에 비가청 워터마크를 삽입해서 탐지할 수 있게 하는 건데, Google이 음성 AI 안전성에 일관된 기준을 적용하고 있다는 점에서 긍정적이에요.

총평

TTS는 사실 오랫동안 "기계 같은 목소리"라는 인식이 강했어요. 최근 1-2년 사이에 급격히 좋아졌는데, Gemini 3.1 Flash TTS는 거기서 한 발 더 나아가 음성 연출이라는 새로운 차원을 열어주고 있어요.

오디오 콘텐츠, 교육 플랫폼, 게임, 고객 서비스 등 음성이 필요한 서비스를 만들고 있다면 Google AI Studio에서 직접 테스트해볼 가치가 있어요.

원문: Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Gemini 3.1 Flash TTS: AI 음성 생성의 감독석에 앉다

성능부터 보면

오디오 태그: 감독석에서 음성을 연출하다

70개 이상 언어 지원

어디서 쓸 수 있나

Flash Live와의 관계

총평

Gemini Omni와 Gemini 3.5 Flash: Google I/O 2026, 영상 생성과 에이전트의 두 갈래

Gemini가 추천한 사이트에서 해킹당했다: AI 추천의 보안 사각지대

Gemini in Sheets, SOTA 달성: 스프레드시트의 AI 시대

성능부터 보면

오디오 태그: 감독석에서 음성을 연출하다

70개 이상 언어 지원

어디서 쓸 수 있나

Flash Live와의 관계

총평

관련 글

Gemini Omni와 Gemini 3.5 Flash: Google I/O 2026, 영상 생성과 에이전트의 두 갈래

Gemini가 추천한 사이트에서 해킹당했다: AI 추천의 보안 사각지대

Gemini in Sheets, SOTA 달성: 스프레드시트의 AI 시대