Llama (Meta Llama) | KAITRUST AI 백과사전

📖 상세 설명

Llama(Large Language Model Meta AI)는 Meta(구 Facebook)에서 개발한 오픈소스 대규모 언어 모델 시리즈입니다. GPT-4, Claude와 함께 현재 가장 영향력 있는 LLM 중 하나로, 연구자와 개발자에게 무료로 제공되어 오픈소스 AI 생태계의 핵심 축이 되었습니다.

2023년 Llama 1으로 시작해 Llama 2, Llama 3, 그리고 최신 Llama 3.2까지 빠르게 발전했습니다. 특히 Llama 3.2는 11B와 90B 비전 모델을 추가해 멀티모달 기능을 지원하며, 1B/3B 경량 모델은 모바일 엣지 디바이스에서도 실행 가능합니다. 2025년 4월에는 Llama 4가 출시되어 MoE(Mixture of Experts) 아키텍처를 도입했습니다.

Llama는 Transformer 디코더 아키텍처를 기반으로 하며, RMSNorm, SwiGLU 활성화 함수, Rotary Positional Embedding(RoPE) 등 최신 기법을 적용했습니다. 128K 컨텍스트 길이를 지원하고, 영어, 독일어, 프랑스어 등 8개 언어를 지원합니다.

실무에서 Llama는 상업적 사용이 가능한 오픈소스 모델로서, 자체 AI 서비스 구축, LoRA/QLoRA를 통한 도메인 특화 파인튜닝, 엣지 디바이스 배포 등에 활용됩니다. AWS, Google Cloud, Azure 등 주요 클라우드에서 모두 지원합니다.

💻 코드 예제

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# Llama 3.2 모델 로드 (HuggingFace에서 접근 권한 필요)
model_name = "meta-llama/Llama-3.2-3B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 대화 형식으로 프롬프트 구성
messages = [
    {"role": "system", "content": "당신은 친절한 AI 어시스턴트입니다."},
    {"role": "user", "content": "머신러닝과 딥러닝의 차이점을 설명해주세요."}
]

# 토큰화 및 생성
input_ids = tokenizer.apply_chat_template(
    messages,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    input_ids,
    max_new_tokens=512,
    temperature=0.7,
    do_sample=True,
    top_p=0.9
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

# vLLM을 사용한 고성능 서빙 (프로덕션 환경)
# from vllm import LLM, SamplingParams
# llm = LLM(model=model_name)
# outputs = llm.generate(prompts, SamplingParams(temperature=0.7))

📊 성능 & 비용

2025년 1월 기준 Llama 모델 스펙 및 벤치마크입니다.

모델	파라미터	컨텍스트	특징
Llama 3.3 70B	70B	128K	IFEval 92.1, MATH 77.0
Llama 3.2 90B Vision	90B	128K	멀티모달 (이미지+텍스트)
Llama 3.2 11B Vision	11B	128K	경량 멀티모달
Llama 3.2 3B	3B	128K	엣지/모바일용
Llama 3.2 1B	1B	128K	온디바이스 최적화

항목	사양/가격	비고
라이선스	Llama Community License	MAU 7억 미만 무료 상업적 사용
70B VRAM (FP16)	~142GB	H100 80GB x2 필요
70B VRAM (Q4)	~40GB	RTX 4090 24GB + RAM 오프로딩
API 비용 (Groq)	$0.60 / 1M tokens	276 tokens/sec 추론 속도

🗣️ 실무에서 이렇게 말하세요

💬 회의에서

"자체 챗봇 서비스는 Llama 3.2 70B를 기반으로 구축하려고 합니다. OpenAI API 비용을 월 80% 이상 절감할 수 있고, 우리 도메인에 맞게 LoRA 파인튜닝도 가능합니다."

💬 면접에서

"Llama는 상업적 사용이 가능한 오픈소스 모델이라 스타트업에서 비용 효율적으로 LLM 서비스를 구축할 수 있습니다. Llama 3.2 90B Vision 모델은 GPT-4o와 ChartQA 벤치마크에서 동등한 성능을 보여주고 있습니다."

💬 기술 토론에서

"온디바이스 AI를 위해서는 Llama 3.2 1B 또는 3B 모델이 적합합니다. 128K 컨텍스트를 지원하면서도 모바일에서 실행 가능한 크기라서, 오프라인 요약이나 번역 기능에 활용할 수 있습니다."

⚠️ 흔한 실수 & 주의사항

❌

라이선스 조건 무시하고 사용

Llama는 완전한 오픈소스가 아닙니다. 월간 활성 사용자 7억 명 이상 서비스는 Meta의 별도 라이선스가 필요합니다.

✅

올바른 사용

Llama Community License를 확인하고, 대규모 서비스의 경우 Meta에 라이선스 문의를 하세요. vLLM이나 TGI로 서빙하면 처리량을 10배 이상 높일 수 있습니다.

🔗 관련 용어

📚 더 배우기

📄 Meta AI Llama 공식 페이지 🎓 HuggingFace Llama 모델