Gemini 3.1 Flash-Lite: 가장 빠르고 저렴한 Gemini 3 모델
GoogleGeminiAI언어 모델가격
안녕하세요, Tom입니다.
AI 모델 가격 경쟁이 치열합니다. 최근 몇 달간:
- GPT-4o: 입력 $2.50 → $0.25 (10배 인하)
- Claude 3.5 Sonnet: 입력 $3 → $0.50 (6배 인하)
- Gemini 2.5 Flash: 입력 $0.15/1M 토큰
이제 Google이 Gemini 3.1 Flash-Lite를 발표했습니다:
입력 $0.25/1M 토큰, 출력 $1.50/1M 토큰
왜 Flash-Lite인가?
Google은 Gemini 3 시리즈를 3개 티어로 나눴습니다:
| 모델 | 용도 | 가격 (입력/출력) |
|---|---|---|
| Gemini 3 Pro | 복잡한 추론, 창의적 작업 | 높음 |
| Gemini 3 Flash | 일반적 작업 | 중간 |
| Gemini 3.1 Flash-Lite | 대규모 워크로드 | $0.25 / $1.50 |
Flash-Lite의 포지션:
- 품질은 유지하면서
- 속도는 극대화하고
- 가격은 최소화
성능: 2.5 Flash를 뛰어넘다
속도 비교
| 지표 | 2.5 Flash | 3.1 Flash-Lite | 개선율 |
|---|---|---|---|
| TTFT (Time to First Answer Token) | 1.0x | 2.5x 빠름 | 150% ↑ |
| 출력 속도 | 1.0x | 1.45x 빠름 | 45% ↑ |
품질 비교
| 벤치마크 | 3.1 Flash-Lite | 2.5 Flash | 비교 |
|---|---|---|---|
| Arena Elo | 1432 | ~1400 | ✅ 더 높음 |
| GPQA Diamond | 86.9% | 84.2% | ✅ 더 높음 |
| MMMU Pro | 76.8% | 74.5% | ✅ 더 높음 |
놀라운 점:
- Gemini 2.5 Flash를 모든 지표에서 능가
- 이전 세대 더 큰 모델들보다도 높은 점수
Thinking Levels: 작업별 맞춤 추론
Flash-Lite의 가장 혁신적인 기능은 Thinking Levels입니다:
Level 1: 빠른 응답 (간단한 작업)
Level 2: 표준 추론 (일반적 작업)
Level 3: 깊은 추론 (복잡한 작업)
작업별 추천 레벨
| 작업 | 추천 레벨 | 이유 |
|---|---|---|
| 번역 | Level 1 | 추론 불필요, 속도 중요 |
| 콘텐츠 검열 | Level 1 | 패턴 인식, 빠른 처리 |
| UI 생성 | Level 2 | 구조 이해 필요 |
| 시뮬레이션 생성 | Level 3 | 복잡한 로직, 깊은 추론 |
| 복잡한 지시 따르기 | Level 3 | 정확한 이해 필요 |
실제 사용 예시
from google.generativeai import GenerativeModel
model = GenerativeModel('gemini-3.1-flash-lite')
# Level 1: 빠른 번역
response = model.generate_content(
"Translate to Spanish: Hello world",
thinking_level=1
)
# Level 3: 복잡한 UI 생성
response = model.generate_content(
"Create a responsive dashboard with...",
thinking_level=3
)효과:
- 간단한 작업은 더 빠르고 저렴하게
- 복잡한 작업은 더 정확하게
- 비용 최적화 자동화
실전 활용 케이스
1. 대규모 번역
# 100만 개 문장 번역
# Level 1 사용 → 초당 수백 개 처리
texts = load_texts() # 1M items
for batch in chunks(texts, 1000):
translate(batch, thinking_level=1)
# 비용: 약 $250 (입력만 계산 시)
# 2.5 Flash 대비: 속도 2.5배, 비용 비슷2. 실시간 콘텐츠 검열
# Level 1로 빠른 검열
def moderate_content(text):
response = model.generate_content(
f"Is this safe? {text}",
thinking_level=1
)
return response.text
# 초당 수천 개 처리 가능3. 복잡한 UI 생성
# Level 3로 정확한 UI 생성
response = model.generate_content("""
Create a React dashboard with:
- Real-time chart
- Data table with sorting
- Filter sidebar
- Responsive layout
""", thinking_level=3)
print(response.text) # 완전한 React 컴포넌트4. 시뮬레이션 생성
# Level 3로 복잡한 로직
response = model.generate_content("""
Generate a traffic simulation with:
- 4-way intersection
- Traffic lights
- Pedestrian crossings
- Emergency vehicles
""", thinking_level=3)가격 비교
입력 토큰 (1M 토큰당)
| 모델 | 가격 | 비교 |
|---|---|---|
| GPT-4o | $0.25 | 동일 |
| Claude 3.5 Sonnet | $3.00 | 12배 비쌈 |
| Claude 3.5 Haiku | $0.80 | 3.2배 비쌈 |
| Gemini 2.5 Flash | $0.15 | 1.7배 저렴 |
| Gemini 3.1 Flash-Lite | $0.25 | 기준 |
출력 토큰 (1M 토큰당)
| 모델 | 가격 | 비교 |
|---|---|---|
| GPT-4o | $1.00 | 1.5배 저렴 |
| Claude 3.5 Sonnet | $15.00 | 10배 비쌈 |
| Claude 3.5 Haiku | $4.00 | 2.7배 비쌈 |
| Gemini 2.5 Flash | $0.60 | 2.5배 저렴 |
| Gemini 3.1 Flash-Lite | $1.50 | 기준 |
실제 비용 계산
시나리오: 100만 번의 챗봇 응답
- 평균 입력: 500 토큰
- 평균 출력: 200 토큰
| 모델 | 입력 비용 | 출력 비용 | 총 비용 |
|---|---|---|---|
| GPT-4o | $125 | $200 | $325 |
| Claude 3.5 Haiku | $400 | $800 | $1,200 |
| Gemini 2.5 Flash | $75 | $120 | $195 |
| Flash-Lite | $125 | $300 | $425 |
결론:
- 2.5 Flash가 가장 저렴
- Flash-Lite는 속도와 가격의 균형
- GPT-4o와 가격 동일, 속도는 더 빠름
얼리 어답터 반응
Latitude (게임 AI)
"Flash-Lite는 큰 모델만큼 정확하면서도 훨씬 효율적이에요."
Cartwheel (콘텐츠 생성)
"복잡한 입력을 처리하면서도 지시를 정확히 따르는 능력이 인상적입니다."
Whering (패션 AI)
"대량 이미지 분석과 정렬이 빨라졌어요."
언제 사용해야 할까?
Flash-Lite를 쓰세요:
- ✅ 대규모 배치 작업 (번역, 검열, 분류)
- ✅ 실시간 응답 (챗봇, 추천)
- ✅ 이미지 대량 분석
- ✅ 비용이 중요한 프로덕션
Flash를 쓰세요:
- ✅ 더 복잡한 추론
- ✅ 긴 컨텍스트 (2M 토큰)
- ✅ 멀티모달 작업
Pro를 쓰세요:
- ✅ 최고 품질 필요
- ✅ 창의적 작업
- ✅ 연구/분석
시작하기
Google AI Studio
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel('gemini-3.1-flash-lite-preview')
response = model.generate_content(
"Hello world",
thinking_level=1
)
print(response.text)Vertex AI
from vertexai.preview.generative_models import GenerativeModel
model = GenerativeModel('gemini-3.1-flash-lite-preview')
response = model.generate_content("Hello world")현재 상태: Preview
- AI Studio와 Vertex AI에서 사용 가능
- 프로덕션 릴리스 예정
마무리하며
Gemini 3.1 Flash-Lite는 **"속도와 가격의 새로운 기준"**을 제시합니다.
핵심:
- 2.5 Flash보다 빠르고 똑똑함
- GPT-4o와 가격 동일, 속도는 더 빠름
- Thinking Levels로 비용 최적화
특히 대규모 워크로드를 돌리는 스타트업이라면, Flash-Lite가 비용을 크게 줄여줄 것 같습니다.
여러분은 어떤 모델 쓰고 계신가요? Flash-Lite 써보실 계획 있으신가요?
이 글은 Google 공식 블로그 포스트를 정리한 것입니다. 원본은 여기에서 확인할 수 있습니다.