Qwen2.5-14B-Korean

한국어 멀티턴 대화에 특화된 Qwen2.5-14B-Instruct 파인튜닝 모델입니다.

모델 정보

  • 베이스 모델: Qwen/Qwen2.5-14B-Instruct
  • 파라미터: 14.7B (13.1B non-embedding)
  • 파인튜닝 방법: LoRA (r=64, alpha=128)
  • 양자화: 8-bit (bitsandbytes)
  • 학습 데이터: 약 68만개의 한국어 멀티턴 대화 샘플

벤치마크 성능

한국어 벤치마크 평가 결과

벤치마크 정확도 샘플 수
GSM8K-Ko 83.50% 167/200
KorQuAD-1.0 74.20% 371/500

상세 결과

GSM8K-Ko (한국어 수학 추론)

  • 정확도: 83.50% (167/200)
  • 평가 데이터: ChuGyouk/GSM8k-Ko test set (200 samples)

KorQuAD-1.0 (한국어 기계 독해)

  • 정확도: 74.20% (371/500)
  • 평가 데이터: squad_kor_v1 validation set (500 samples)

사용 방법

기본 사용법

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "MyeongHo0621/Qwen2.5-14B-Korean"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="bfloat16",
    device_map="auto",
    trust_remote_code=True,
    load_in_8bit=True  # 8-bit 양자화 사용
)

# 대화 생성
messages = [
    {"role": "user", "content": "안녕하세요! 한국어로 대화할 수 있나요?"}
]

inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    inputs,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.9,
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Unsloth 사용 (권장)

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="MyeongHo0621/Qwen2.5-14B-Korean",
    max_seq_length=4096,
    dtype=None,
    load_in_4bit=False,
    load_in_8bit=True,
)

FastLanguageModel.for_inference(model)

messages = [{"role": "user", "content": "한국의 수도는 어디인가요?"}]
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to("cuda")

outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

학습 세부사항

하이퍼파라미터

  • LoRA rank (r): 64
  • LoRA alpha: 128
  • LoRA dropout: 0.0
  • Learning rate: 2e-4
  • Batch size: 22 (per device) × 4 (gradient accumulation) = 88
  • Epochs: 3
  • Max sequence length: 4096

학습 데이터

약 68만개의 한국어 멀티턴 대화 샘플:

  • kowiki_qa_data.jsonl (48,699)
  • kullm_v2_full_data.jsonl (146,963)
  • orca_math_ko_data.jsonl (192,807)
  • smol_koreantalk_data.jsonl (88,752)
  • won_instruct_data.jsonl (86,007)

하드웨어

  • GPU: NVIDIA H100 80GB
  • 학습 시간: 약 12-18시간 (3 epochs)

제한사항

  • 이 모델은 한국어 멀티턴 대화에 특화되어 있으며, 다른 언어나 작업에서의 성능은 보장되지 않습니다.
  • 수학 추론 문제에서 일부 복잡한 문제에 대해 오답을 생성할 수 있습니다.
  • 긴 컨텍스트에서의 성능은 제한될 수 있습니다.

라이선스

이 모델은 Apache 2.0 라이선스 하에 배포됩니다. 베이스 모델인 Qwen2.5-14B-Instruct도 Apache 2.0 라이선스를 따릅니다.

참고 자료

인용

@misc{qwen2.5-14b-korean,
  title={Qwen2.5-14B-Korean: Korean Multiturn Conversation Fine-tuned Model},
  author={MyeongHo0621},
  year={2025},
  howpublished={\url{https://huggingface.co/MyeongHo0621/Qwen2.5-14B-Korean}}
}
Downloads last month
41
Safetensors
Model size
15B params
Tensor type
BF16
·
F32
·
I8
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MyeongHo0621/Qwen2.5-14B-Korean

Base model

Qwen/Qwen2.5-14B
Adapter
(219)
this model

Paper for MyeongHo0621/Qwen2.5-14B-Korean