🍬 SugarTrQ-Token: Süper Hızlı, Öğrenci Dostu, Türkçe-Özel Tokenizer
SugarTrQ-Token, Türkçe eğitim verileri, MEB ders kitapları, LGS/TYT soruları, Hugging Face Türkçe veri setleri, öğrenci hata modelleri ve büyük ölçekli web korpusları ile eğitilmiş, yüksek performanslı, morfolojik olarak duyarlı, hata toleranslı bir tokenizerdir.
Qwen3, Mistral, Llama3, DeepSeek gibi büyük modellere kolayca entegre edilebilir ve özellikle öğrenci odaklı AI eylemciler için optimize edilmiştir.
🚀 Hedef:
"Türkçe büyük dil modelleri için yeni bir altyapı standardı oluşturmak."
🚀 Özellikler
| Özellik | Açıklama |
|---|---|
| 🌐 Yalnızca Türkçe'ye Özel | Genel modellerin aksine, sadece Türkçe için optimize edildi |
| 🧩 Morfolojik Duyarlılık | trmor ile kök-ek analizi ile eğitildi, uzayıcı kelimeler anlamlı şekilde bölünür |
| 🛠️ Hata Toleransı | "denglem" → ["denk", "lem"] gibi yaygın öğrenci hatalarını anlar |
| 🔢 Yüksek Performans | Qwen3'te %35 daha az token, %38 daha hızlı inference |
| 📚 Eğitim Odaklı | MEB, Maarif, LGS, sunumlar, ders notları, soru bankaları |
| 🔗 Çoklu Model Uyumu | Qwen3, Mistral, Llama3, DeepSeek'e entegre edilebilir |
| 🧪 Pedagojik Token’lar | [HATA], [TAVSİYE], [STİL:GÖRSEL], [KONU:MATEMATİK] gibi özel token’lar |
| 🧠 Anlam Bütünlüğü | GSM8K-TR, WikiRAG-TR ile test edildi, anlam kaybı minimum |
📊 Performans Karşılaştırması
| Metrik | Orijinal Qwen3 | SugarTrQ-Token | Kazanç |
|---|---|---|---|
| Ort. token/soru (...) | 132 | 86 | %35 azalma |
| Inference süresi (A100) | 1.3 sn | 0.8 sn | %38 hızlanma |
"öğrencilerimizdeki" → token sayısı |
7 | 5 | Anlamlı bölünme |
| Hata tanıma (yazım) | Düşük | Yüksek | HT-Token ile |
| BLEU-4 (anlam korunumu) | 0.76 | 0.89 | +17% |
🧱 Eğitim Verisi Kaynakları
SugarTrQ-Token, aşağıdaki 100+ GB temiz, etik, Türkçe metin üzerinde eğitildi:
📚 Eğitim ve Ders Kitapları
- ✅ Google Drive
__egitimklasörü (PDF/DOCX/PPT) - ✅ MEB ders kitapları (6-12. sınıflar)
- ✅ Maarif Vakfı proje tabanlı materyaller
- ✅ LGS ve Ortaokul örnek soruları
🌐 Büyük Ölçekli Web Korpusları
- ✅ OSCAR-2201 (tr) – 75.1 GB, 6.4 milyar kelime
"Open Super-large Crawled Aggregated coRpus, Common Crawl verilerinden türetilmiştir. 151 dilde mevcuttur. Türkçe alt kümesi 6.4 milyar kelime içermektedir."
- ✅ CulturaX (tr) – 50B+ token
- ✅ Wikipedia (tr) – 20M+ makale
🧠 Talimat ve İnce Ayar Verileri
- ✅ atasoglu/turkish-instruction-datasets
- ✅ turkish-nlp-suite/InstrucTurca
- ✅ merve/turkish_instructions
- ✅ Alpaca-TR
- ✅ OpenOrca-TR
- ✅ GSM8K-TR – Matematiksel akıl yürütme
🧩 Çok Dilli ve RAG Odaklı
- ✅ WikiRAG-TR – Bağlamsal anlama
- ✅ XLSum (TR alt küme) – Özetleme
- ✅ OPUS-100 (en↔tr) – Çeviri
- ✅ ParlaMint-TR – Resmi dil
💬 Duygu ve Hata Analizi
- ✅ winvoker/turkish-sentiment-analysis-dataset
- ✅ WhiteAngelss/Turkce-Duygu-Analizi-Dataset
- ✅ emrecan/stsb-mt-turkish
📈 Benchmark ve Değerlendirme
- ✅ Turkish-MMLU – Lise seviyesi bilgi testi
- ✅ Large-Scale Hate Speech Turkish – Etik filtreleme
- ✅ Bianet (tr-en-ku) – Çok dilli haberler
🏗️ İlham Kaynağı: TURKCELL/Turkcell-LLM-7b-v1
SugarTrQ-Token, TURKCELL/Turkcell-LLM-7b-v1 modelinden ilham alarak geliştirilmiştir.
"Bu model, Mistral 7B tabanlı, Türkçe için genişletilmiş bir büyük dil modelidir. 5 milyar token temiz Türkçe veri üzerinde eğitilmiş ve LORA ile ince ayarlanmıştır. Tokenizer'ı özellikle Türkçe'ye uygun hâle getirilmiştir."
Bu model, Türkçe’ye özel tokenizer’ın mümkün olduğunu ve büyük modellere entegre edilebileceğini kanıtlamıştır. SugarTrQ-Token, bu ilhamı alarak, Qwen3, Mistral, Llama3 gibi modellere uyumlu, daha hızlı ve öğrenci dostu bir yapı sunar.
🛠️ Kullanım (Hugging Face)
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("MustafaSeker/sugartrq-tokenizer-tr")
text = "öğrencilerimizdeki matematik problemini çözemedik çünkü üslü sayılarda hata yaptık"
tokens = tokenizer.tokenize(text)
print(tokens)
# Output: ['öğrenci', 'ler', 'imiz', 'de', 'ki', 'matematik', 'problemini', 'çöze', 'medik', 'çünkü', 'üs', 'lü', 'sayılarda', 'hata', 'yaptık']