
"로컬 LLM 모델 종류가 많은데 한국어 응답엔 뭐가 제일 자연스러운가요?"
Qwen 2.5 와 Gemma 3 / Gemma 4 가 2026년 5월 기준 한국어 가능한 오픈 로컬 LLM 의 양대 축. 본 글은 7개 모델을 단톡방 자동 응답 시나리오로 평가한 결과를 다축 레이더 / 막대 차트로 시각화합니다.
아래 차트와 점수는 운영자 체감 평가 기반 시뮬레이션 (소수 사용자 시험). 본인 단톡방 / 메시지 패턴 / 멤버 톤에 따라 다를 수 있어 본인 환경에서 검증 권장.
종합 결과, 머신 RAM 기준 권장
| RAM | 1순위 | 2순위 | 비고 |
|---|---|---|---|
| 8GB | Qwen 2.5 3B Q4 | Gemma 4 E2B | OS 여유 고려 |
| 16GB | Qwen 2.5 3B Q4 | Gemma 4 E4B | 일반 사용자 sweet spot |
| 16GB + GPU | Gemma 4 E4B Vision | Gemma 3 12B Q4 | 사진 응답 가능 |
| 32GB | Gemma 3 12B Q4 | Qwen 2.5 7B Q4 | 깊은 응대 |
| 64GB + GPU | Gemma 3 27B Q4 | Gemma 3 12B Q4 | 고급 운영 |
가장 무난한 default: Qwen 2.5 3B Q4. 8GB 부터 64GB 까지 안정. R66 부터 Replyer 의 default 도 이것.
한국어 응답 품질 다축 비교 (1~5점)
M2 기준 응답 속도 (초)
모델별 한국어 응답 품질 비교
50건 시나리오 평균 점수 (1~5점):
| 모델 | 한국어 자연스러움 | 존댓말 일관성 | 톤 유지 | 응답 길이 적정성 | 종합 |
|---|---|---|---|---|---|
| Qwen 2.5 3B Q4 | 4.2 | 4.5 | 4.0 | 4.3 | 4.25 |
| Qwen 2.5 7B Q4 | 4.5 | 4.6 | 4.3 | 4.4 | 4.45 |
| Gemma 3 4B Q4 | 3.8 | 4.0 | 3.7 | 3.9 | 3.85 |
| Gemma 3 12B Q4 | 4.6 | 4.7 | 4.5 | 4.5 | 4.58 |
| Gemma 3 27B Q4 | 4.8 | 4.8 | 4.7 | 4.6 | 4.73 |
| Gemma 4 E2B | 3.9 | 4.1 | 3.8 | 4.0 | 3.95 |
| Gemma 4 E4B | 4.4 | 4.5 | 4.2 | 4.4 | 4.38 |
관찰 1 Qwen 2.5 3B 가 Gemma 3 4B 보다 한국어 자연스러움이 높음. Qwen 의 한국어 학습 비중이 Gemma 보다 큰 것으로 추정.
관찰 2 Gemma 3 12B 와 Gemma 4 E4B 의 한국어 품질이 유사. E4B 는 멀티모달 (사진 응답) 지원이 추가 장점.
관찰 3 Gemma 3 27B 는 거의 사람 수준. 단 RAM 32GB+ 와 GPU 권장.
모델별 강약점 (한 눈에)
Replyer 가 default 를 Qwen 2.5 3B 로 정한 이유
R66 (v0.12.7) 부터 default 가 Gemma 4 E4B → Qwen 2.5 3B 로 변경. 이유 4가지:
- 호환성 Gemma 4 는 llama.cpp b8746+ 필요. Windows prebuilt CPU wheel 구버전이면 load 실패 → auto-delete → 재다운로드 무한 루프.
- 한국어 품질 3B 사이즈에서 Qwen 2.5 가 Gemma 3 4B 보다 한국어 자연스러움 높음.
- 메모리 안전 2GB Q4 가 8GB RAM 머신에서 OS / 브라우저 / 단톡방 클라이언트와 공존.
- 라이선스 Apache 2.0 으로 상업 사용 자유.
사용자가 Settings 에서 Gemma 4 / Gemma 3 명시 선택은 가능. 자동 추천 (auto-tune) 은 32GB+ 머신에서도 안전하게 Qwen 2.5 3B 부터 시작.
업그레이드 경로
급격한 업그레이드 (3B → 27B 한 번에) 는 비추천. 모델 변경 시 운영자 톤이 약간 바뀌므로 멤버가 인지할 가능성. 점진 업그레이드 + 페르소나 / 톤 가이드 재조정이 안전.
자주 묻는 질문
Q. Qwen 과 Gemma 외에 다른 옵션은?
Llama 3, Mistral, Yi-1.5 등이 있지만 한국어 자연스러움이 Qwen 2.5 / Gemma 3 12B 대비 낮습니다.
Q. Q4 양자화가 Q8 / fp16 대비 품질 손실 큰가요?
체감 차이 작음. Q4 → Q8 은 0.1~0.2점 상승 (5점 만점), 모델 크기 2배. RAM 32GB+ 사용자만 Q8 / fp16 고려.
Q. 7B vs 12B, 어느 쪽이 가성비 좋은가요?
Gemma 3 12B 의 한국어 품질이 약간 높음 (4.58 vs 4.45). 단 RAM 7GB vs 4GB 와 응답 속도 5~8초 vs 4~6초 차이. 8GB 여유 면 Gemma 3 12B, 4GB 여유 면 Qwen 2.5 7B.
Q. 모델 바꾸면 운영자 톤이 변하나요?
조금 변합니다. Qwen 2.5 3B 에서 잘 작동하던 페르소나 프롬프트가 Gemma 3 12B 에서 미묘하게 다른 톤이 될 수 있음. 모델 변경 시 Sandbox 페이지 에서 시험 응답 5~10건 생성 + 평가 후 정착 권장.
Q. 사진 응답이 꼭 필요한가요?
단톡방 콘텐츠에 따라 다름. 일상 잡담 위주면 텍스트 전용 (Qwen 2.5 3B) 으로 충분. 패션 / 음식 / 상품 후기 비중 크면 Gemma 4 E4B Vision 권장.
Q. Replyer 의 default 모델을 직접 바꿀 수 있나요?
가능. Settings → 모델 선택 카드에서 다른 프리셋 클릭. 자동 다운로드 후 자동 재시작. Settings 에서 명시 선택 시 auto-tune 플래그 자동 OFF. 자세한 흐름은 GPU 없는 노트북 가이드 참고.
다음 단계
본인 단톡방에 자동 답장을 도입하려면 Replyer 다운로드 에서 본인 OS 빌드를 받고, 단계별 사용법은 사용 매뉴얼 을 참고하세요.