🤖 AI/ML

Gemini

Google Gemini

Google의 멀티모달 LLM. 텍스트, 이미지, 오디오, 비디오 처리.

📖 상세 설명

Gemini는 Google DeepMind가 개발한 멀티모달 대규모 언어 모델(LLM) 제품군입니다. 텍스트뿐 아니라 이미지, 오디오, 비디오, 코드를 동시에 이해하고 생성할 수 있어 GPT-4, Claude와 함께 3대 프론티어 모델로 불립니다.

2023년 12월 첫 출시된 이후 빠르게 진화해, 2025년 말 Gemini 3가 출시되었습니다. Gemini 3는 복잡한 추론 능력이 80% 이상 향상되었고, 100만 토큰 컨텍스트 윈도우를 지원하여 책 한 권 분량의 문서를 한 번에 처리할 수 있습니다.

모델 라인업은 용도별로 세분화됩니다: Gemini 3 Pro(최고 성능, $2/$12 per 1M tokens), Gemini 2.5 Pro(균형형, $1.25/$10), Gemini 2.5 Flash(저비용 고속, $0.15/$0.60), Flash-Lite(초경량, $0.10/$0.40). Free Tier도 제공되어 하루 1,000건까지 무료로 테스트 가능합니다.

실무에서 Gemini는 Google 생태계와의 통합이 강점입니다. Google Search Grounding으로 실시간 검색 결과를 응답에 반영하고, Vertex AI를 통해 엔터프라이즈급 배포가 가능합니다. 특히 YouTube 영상 분석, Google Docs 자동화 등 Google Workspace 연동에 최적화되어 있습니다.

💻 코드 예제

# Google Gemini API 기본 사용법
import google.generativeai as genai
from PIL import Image

# API 키 설정
genai.configure(api_key="YOUR_API_KEY")

# 1. 텍스트 생성 (Gemini 2.5 Flash - 가성비 모델)
model = genai.GenerativeModel("gemini-2.5-flash")
response = model.generate_content("한국 스타트업 생태계의 2025년 트렌드를 분석해줘")
print(response.text)

# 2. 멀티모달: 이미지 + 텍스트
vision_model = genai.GenerativeModel("gemini-2.5-pro")
image = Image.open("product_screenshot.png")
response = vision_model.generate_content([
    "이 UI/UX의 문제점과 개선 방안을 구체적으로 분석해줘",
    image
])
print(response.text)

# 3. 긴 문서 처리 (100만 토큰 컨텍스트)
long_doc_model = genai.GenerativeModel("gemini-2.5-pro")
with open("annual_report_2025.pdf", "rb") as f:
    pdf_data = f.read()

response = long_doc_model.generate_content([
    "이 연간 보고서에서 리스크 요인과 성장 기회를 요약해줘",
    {"mime_type": "application/pdf", "data": pdf_data}
])

# 4. Function Calling (도구 사용)
tools = [{
    "function_declarations": [{
        "name": "search_database",
        "description": "사내 데이터베이스에서 정보를 검색합니다",
        "parameters": {
            "type": "object",
            "properties": {
                "query": {"type": "string"},
                "limit": {"type": "integer"}
            }
        }
    }]
}]
fc_model = genai.GenerativeModel("gemini-2.5-flash", tools=tools)
response = fc_model.generate_content("최근 매출 데이터 5개 보여줘")
print(response.candidates[0].content.parts[0].function_call)

📊 성능 & 비용

2025년 1월 기준 Google Gemini API 주요 가격 정보입니다.

모델 입력 (1M tokens) 출력 (1M tokens) 컨텍스트
Gemini 2.5 Pro $1.25 (200K 이하) / $2.50 (초과) $10.00 / $15.00 1M tokens
Gemini 2.0 Flash $0.10 $0.40 1M tokens
Gemini 2.0 Flash-Lite $0.10 $0.40 1M tokens
Gemini 1.5 Flash $0.075 ~ $0.15 $0.30 ~ $0.60 1M tokens

무료 티어: Google AI Studio에서 분당 15건, 일 1,000건까지 무료. Batch API 50% 할인, 컨텍스트 캐싱 최대 90% 절감 가능.

🗣️ 실무에서 이렇게 말하세요

💬 회의에서
"비용 효율을 위해 Gemini Flash를 메인으로 쓰고, 복잡한 분석만 Pro로 라우팅하는 구조로 가겠습니다. Flash가 입력 $0.15/1M으로 GPT-4 Turbo 대비 90% 저렴해서 월 API 비용을 크게 줄일 수 있어요."
💬 면접에서
"Gemini의 차별점은 네이티브 멀티모달과 100만 토큰 컨텍스트입니다. GPT-4는 이미지를 따로 인코딩하지만, Gemini는 텍스트-이미지-비디오를 동일한 토큰 공간에서 처리해서 크로스모달 추론이 자연스럽습니다."
💬 기술 토론에서
"Google Search Grounding 기능으로 RAG 없이도 실시간 정보를 가져올 수 있어요. 하루 1,500건 무료니까 뉴스 요약 봇 같은 건 별도 검색 API 없이 Gemini만으로 해결됩니다."

⚠️ 흔한 실수 & 주의사항

Free Tier 한도를 프로덕션에서 사용

무료 티어는 분당 15 요청, 하루 1,000건 제한이 있습니다. 2025년 12월 쿼터 변경으로 429 에러가 급증했으니, 프로덕션은 반드시 유료 티어로 전환하세요.

컨텍스트 길이에 따른 가격 차이 무시

Gemini Pro는 200K 토큰 이상 입력 시 가격이 2배로 뜁니다($1.25→$2.50). 긴 문서는 청크 분할 후 요약하는 게 비용 효율적입니다.

올바른 방법: 용도별 모델 분기

간단한 분류/추출은 Flash-Lite($0.10), 일반 대화는 Flash($0.15), 복잡한 추론/코딩은 Pro($1.25)로 라우팅하면 비용을 70% 이상 절감할 수 있습니다.

🔗 관련 용어

📚 더 배우기