Qwen2.5-14B-Korean

한국어 멀티턴 대화에 특화된 Qwen2.5-14B-Instruct 파인튜닝 모델입니다.

모델 정보

베이스 모델: Qwen/Qwen2.5-14B-Instruct
파라미터: 14.7B (13.1B non-embedding)
파인튜닝 방법: LoRA (r=64, alpha=128)
양자화: 8-bit (bitsandbytes)
학습 데이터: 약 68만개의 한국어 멀티턴 대화 샘플

벤치마크 성능

한국어 벤치마크 평가 결과

벤치마크	정확도	샘플 수
GSM8K-Ko	83.50%	167/200
KorQuAD-1.0	74.20%	371/500

상세 결과

GSM8K-Ko (한국어 수학 추론)

정확도: 83.50% (167/200)
평가 데이터: ChuGyouk/GSM8k-Ko test set (200 samples)

KorQuAD-1.0 (한국어 기계 독해)

정확도: 74.20% (371/500)
평가 데이터: squad_kor_v1 validation set (500 samples)

사용 방법

기본 사용법

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "MyeongHo0621/Qwen2.5-14B-Korean"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="bfloat16",
    device_map="auto",
    trust_remote_code=True,
    load_in_8bit=True  # 8-bit 양자화 사용
)

# 대화 생성
messages = [
    {"role": "user", "content": "안녕하세요! 한국어로 대화할 수 있나요?"}
]

inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    inputs,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.9,
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Unsloth 사용 (권장)

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="MyeongHo0621/Qwen2.5-14B-Korean",
    max_seq_length=4096,
    dtype=None,
    load_in_4bit=False,
    load_in_8bit=True,
)

FastLanguageModel.for_inference(model)

messages = [{"role": "user", "content": "한국의 수도는 어디인가요?"}]
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to("cuda")

outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

학습 세부사항

하이퍼파라미터

LoRA rank (r): 64
LoRA alpha: 128
LoRA dropout: 0.0
Learning rate: 2e-4
Batch size: 22 (per device) × 4 (gradient accumulation) = 88
Epochs: 3
Max sequence length: 4096

학습 데이터

약 68만개의 한국어 멀티턴 대화 샘플:

kowiki_qa_data.jsonl (48,699)
kullm_v2_full_data.jsonl (146,963)
orca_math_ko_data.jsonl (192,807)
smol_koreantalk_data.jsonl (88,752)
won_instruct_data.jsonl (86,007)

하드웨어

GPU: NVIDIA H100 80GB
학습 시간: 약 12-18시간 (3 epochs)

제한사항

이 모델은 한국어 멀티턴 대화에 특화되어 있으며, 다른 언어나 작업에서의 성능은 보장되지 않습니다.
수학 추론 문제에서 일부 복잡한 문제에 대해 오답을 생성할 수 있습니다.
긴 컨텍스트에서의 성능은 제한될 수 있습니다.

라이선스

이 모델은 Apache 2.0 라이선스 하에 배포됩니다. 베이스 모델인 Qwen2.5-14B-Instruct도 Apache 2.0 라이선스를 따릅니다.

참고 자료

인용

@misc{qwen2.5-14b-korean,
  title={Qwen2.5-14B-Korean: Korean Multiturn Conversation Fine-tuned Model},
  author={MyeongHo0621},
  year={2025},
  howpublished={\url{https://huggingface.co/MyeongHo0621/Qwen2.5-14B-Korean}}
}

Downloads last month: 41

Safetensors

Model size

15B params

Tensor type

BF16

F32

Model tree for MyeongHo0621/Qwen2.5-14B-Korean

Base model

Qwen/Qwen2.5-14B

Finetuned

Qwen/Qwen2.5-14B-Instruct

Adapter

(219)

this model

Paper for MyeongHo0621/Qwen2.5-14B-Korean

LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 58