LoRA: Low-Rank Adaptation of Large Language Models
Paper
•
2106.09685
•
Published
•
58
한국어 멀티턴 대화에 특화된 Qwen2.5-14B-Instruct 파인튜닝 모델입니다.
| 벤치마크 | 정확도 | 샘플 수 |
|---|---|---|
| GSM8K-Ko | 83.50% | 167/200 |
| KorQuAD-1.0 | 74.20% | 371/500 |
GSM8K-Ko (한국어 수학 추론)
KorQuAD-1.0 (한국어 기계 독해)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "MyeongHo0621/Qwen2.5-14B-Korean"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="bfloat16",
device_map="auto",
trust_remote_code=True,
load_in_8bit=True # 8-bit 양자화 사용
)
# 대화 생성
messages = [
{"role": "user", "content": "안녕하세요! 한국어로 대화할 수 있나요?"}
]
inputs = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
outputs = model.generate(
inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.9,
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="MyeongHo0621/Qwen2.5-14B-Korean",
max_seq_length=4096,
dtype=None,
load_in_4bit=False,
load_in_8bit=True,
)
FastLanguageModel.for_inference(model)
messages = [{"role": "user", "content": "한국의 수도는 어디인가요?"}]
inputs = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
).to("cuda")
outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
약 68만개의 한국어 멀티턴 대화 샘플:
이 모델은 Apache 2.0 라이선스 하에 배포됩니다. 베이스 모델인 Qwen2.5-14B-Instruct도 Apache 2.0 라이선스를 따릅니다.
@misc{qwen2.5-14b-korean,
title={Qwen2.5-14B-Korean: Korean Multiturn Conversation Fine-tuned Model},
author={MyeongHo0621},
year={2025},
howpublished={\url{https://huggingface.co/MyeongHo0621/Qwen2.5-14B-Korean}}
}