LLM (Large Language Model) | KAITRUST AI 백과사전

📖 상세 설명

LLM(Large Language Model, 대규모 언어 모델)은 수십억~조 단위의 파라미터를 가진 자연어 처리 모델입니다. 대표적으로 OpenAI GPT-5(2025), Anthropic Claude Opus 4.5, Google Gemini Ultra, Meta Llama 3 등이 있습니다. Transformer 아키텍처 기반으로, 대규모 텍스트 데이터에서 다음 토큰을 예측하는 방식으로 학습됩니다.

2025-2026년 LLM의 핵심 트렌드는 Reasoning Model(추론 모델)과 Coding Agent입니다. Claude Code, GPT-5의 reasoning 모드처럼 단순 생성을 넘어 복잡한 추론과 도구 사용(Tool Calling)이 가능해졌습니다. MCP(Model Context Protocol)가 표준으로 자리잡으며 에이전트 시스템 구축이 보편화됐습니다.

현재 주요 모델 스펙: GPT-5.2는 400K 토큰 컨텍스트, Claude Opus 4.5는 컴퓨터 사용에서 61.4% OSWorld 점수, Gemini Ultra는 멀티모달 창작에서 선두입니다. 오픈소스에서는 DeepSeek-V3.2가 ChatGPT급 추론을 저비용으로 달성했습니다.

실무 활용: API 기반(OpenAI, Anthropic)은 토큰당 과금($0.01-0.15/1K), 온프레미스 배포는 LM Studio, Ollama로 로컬 실행. 비용 최적화를 위해 라우팅(간단한 쿼리는 작은 모델, 복잡한 쿼리는 큰 모델)이 표준 패턴입니다.

💻 코드 예제

import anthropic
from openai import OpenAI

# 1. Anthropic Claude API 사용
client = anthropic.Anthropic(api_key="your-api-key")

message = client.messages.create(
    model="claude-opus-4-5-20251101",  # 최신 Opus 4.5
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "Python으로 퀵소트 구현해줘"}
    ]
)
print(message.content[0].text)

# 2. OpenAI GPT API (Tool Calling 포함)
openai = OpenAI(api_key="your-api-key")

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "현재 날씨 조회",
        "parameters": {
            "type": "object",
            "properties": {"location": {"type": "string"}},
            "required": ["location"]
        }
    }
}]

response = openai.chat.completions.create(
    model="gpt-5",  # GPT-5
    messages=[{"role": "user", "content": "서울 날씨 어때?"}],
    tools=tools,
    tool_choice="auto"
)
# Tool call이 필요하면 function 실행 후 결과 전달

# 3. 로컬 LLM (Ollama)
import ollama

response = ollama.chat(
    model='llama3.2',  # 로컬 모델
    messages=[{'role': 'user', 'content': '안녕하세요'}]
)
# 비용: $0 (GPU 전기세만)

📊 성능 & 비용

2025년 1월 기준 주요 LLM 모델 가격 비교입니다.

모델	입력 ($/1M tokens)	출력 ($/1M tokens)	컨텍스트
GPT-4o	$2.50 ~ $5.00	$10.00 ~ $15.00	128K
GPT-4o Mini	$0.15	$0.60	128K
Claude 3.5 Sonnet	$3.00	$15.00	200K
Claude 3.5 Haiku	$0.80	$4.00	200K
Gemini 2.0 Pro	$1.25 ~ $2.50	$10.00 ~ $15.00	1M
Gemini 2.0 Flash	$0.60	$3.50	1M

비용 최적화 팁: 간단한 작업은 Mini/Haiku/Flash 모델로 라우팅하면 비용을 90% 이상 절감할 수 있습니다.

🗣️ 실무에서 이렇게 말하세요

💬 회의에서

"현재 GPT-4 API 월 비용이 500만원인데, 단순 FAQ는 Claude Haiku로 라우팅하고 복잡한 분석만 Opus로 보내면 70% 절감됩니다. 라우팅 로직에 1주일, 테스트에 1주일 잡겠습니다."

💬 면접에서

"RAG 파이프라인에서 Claude Sonnet 4를 사용했습니다. 청킹은 512 토큰, 오버랩 50으로 설정하고 Reranker로 관련 문서 Top 5를 추출해 컨텍스트에 넣었어요. Hallucination이 30%에서 5%로 감소했습니다."

💬 기술 토론에서

"Inference-time scaling이 2026 핵심 트렌드입니다. 모델 크기보다 추론 시 compute를 더 쓰는 게 효과적이에요. Claude의 extended thinking이나 GPT-5의 reasoning 모드가 그 예시고, 정확도가 중요한 태스크에서는 비용 대비 효과가 좋습니다."

⚠️ 흔한 실수 & 주의사항

❌

항상 가장 큰 모델 사용

Opus/GPT-5를 모든 태스크에 쓰면 비용 폭발. 간단한 작업은 Haiku/Mini로 충분합니다. 라우팅 필수.

❌

Temperature를 무조건 0으로 설정

Temperature 0은 결정적이지만 창의성 없음. 코드 생성은 0, 창작은 0.7-1.0, 일반 대화는 0.3-0.5 권장.

✅

올바른 방법

System prompt로 역할 정의, Few-shot 예시 제공, 출력 형식 명시(JSON 등). 중요한 결정은 여러 모델 앙상블 검토.

🔗 관련 용어

📚 더 배우기

📄 Anthropic Claude 공식 문서 📄 OpenAI GPT API 가이드 🎓 HuggingFace Transformers 튜토리얼