LLM
Large Language Model
대규모 언어 모델. GPT, Claude, Gemini. 수십억~조 단위 파라미터.
Large Language Model
대규모 언어 모델. GPT, Claude, Gemini. 수십억~조 단위 파라미터.
LLM(Large Language Model, 대규모 언어 모델)은 수십억~조 단위의 파라미터를 가진 자연어 처리 모델입니다. 대표적으로 OpenAI GPT-5(2025), Anthropic Claude Opus 4.5, Google Gemini Ultra, Meta Llama 3 등이 있습니다. Transformer 아키텍처 기반으로, 대규모 텍스트 데이터에서 다음 토큰을 예측하는 방식으로 학습됩니다.
2025-2026년 LLM의 핵심 트렌드는 Reasoning Model(추론 모델)과 Coding Agent입니다. Claude Code, GPT-5의 reasoning 모드처럼 단순 생성을 넘어 복잡한 추론과 도구 사용(Tool Calling)이 가능해졌습니다. MCP(Model Context Protocol)가 표준으로 자리잡으며 에이전트 시스템 구축이 보편화됐습니다.
현재 주요 모델 스펙: GPT-5.2는 400K 토큰 컨텍스트, Claude Opus 4.5는 컴퓨터 사용에서 61.4% OSWorld 점수, Gemini Ultra는 멀티모달 창작에서 선두입니다. 오픈소스에서는 DeepSeek-V3.2가 ChatGPT급 추론을 저비용으로 달성했습니다.
실무 활용: API 기반(OpenAI, Anthropic)은 토큰당 과금($0.01-0.15/1K), 온프레미스 배포는 LM Studio, Ollama로 로컬 실행. 비용 최적화를 위해 라우팅(간단한 쿼리는 작은 모델, 복잡한 쿼리는 큰 모델)이 표준 패턴입니다.
import anthropic
from openai import OpenAI
# 1. Anthropic Claude API 사용
client = anthropic.Anthropic(api_key="your-api-key")
message = client.messages.create(
model="claude-opus-4-5-20251101", # 최신 Opus 4.5
max_tokens=4096,
messages=[
{"role": "user", "content": "Python으로 퀵소트 구현해줘"}
]
)
print(message.content[0].text)
# 2. OpenAI GPT API (Tool Calling 포함)
openai = OpenAI(api_key="your-api-key")
tools = [{
"type": "function",
"function": {
"name": "get_weather",
"description": "현재 날씨 조회",
"parameters": {
"type": "object",
"properties": {"location": {"type": "string"}},
"required": ["location"]
}
}
}]
response = openai.chat.completions.create(
model="gpt-5", # GPT-5
messages=[{"role": "user", "content": "서울 날씨 어때?"}],
tools=tools,
tool_choice="auto"
)
# Tool call이 필요하면 function 실행 후 결과 전달
# 3. 로컬 LLM (Ollama)
import ollama
response = ollama.chat(
model='llama3.2', # 로컬 모델
messages=[{'role': 'user', 'content': '안녕하세요'}]
)
# 비용: $0 (GPU 전기세만)
2025년 1월 기준 주요 LLM 모델 가격 비교입니다.
| 모델 | 입력 ($/1M tokens) | 출력 ($/1M tokens) | 컨텍스트 |
|---|---|---|---|
| GPT-4o | $2.50 ~ $5.00 | $10.00 ~ $15.00 | 128K |
| GPT-4o Mini | $0.15 | $0.60 | 128K |
| Claude 3.5 Sonnet | $3.00 | $15.00 | 200K |
| Claude 3.5 Haiku | $0.80 | $4.00 | 200K |
| Gemini 2.0 Pro | $1.25 ~ $2.50 | $10.00 ~ $15.00 | 1M |
| Gemini 2.0 Flash | $0.60 | $3.50 | 1M |
비용 최적화 팁: 간단한 작업은 Mini/Haiku/Flash 모델로 라우팅하면 비용을 90% 이상 절감할 수 있습니다.
"현재 GPT-4 API 월 비용이 500만원인데, 단순 FAQ는 Claude Haiku로 라우팅하고 복잡한 분석만 Opus로 보내면 70% 절감됩니다. 라우팅 로직에 1주일, 테스트에 1주일 잡겠습니다."
"RAG 파이프라인에서 Claude Sonnet 4를 사용했습니다. 청킹은 512 토큰, 오버랩 50으로 설정하고 Reranker로 관련 문서 Top 5를 추출해 컨텍스트에 넣었어요. Hallucination이 30%에서 5%로 감소했습니다."
"Inference-time scaling이 2026 핵심 트렌드입니다. 모델 크기보다 추론 시 compute를 더 쓰는 게 효과적이에요. Claude의 extended thinking이나 GPT-5의 reasoning 모드가 그 예시고, 정확도가 중요한 태스크에서는 비용 대비 효과가 좋습니다."
Opus/GPT-5를 모든 태스크에 쓰면 비용 폭발. 간단한 작업은 Haiku/Mini로 충분합니다. 라우팅 필수.
Temperature 0은 결정적이지만 창의성 없음. 코드 생성은 0, 창작은 0.7-1.0, 일반 대화는 0.3-0.5 권장.
System prompt로 역할 정의, Few-shot 예시 제공, 출력 형식 명시(JSON 등). 중요한 결정은 여러 모델 앙상블 검토.