🍬 SugarTrQ-Token: Süper Hızlı, Öğrenci Dostu, Türkçe-Özel Tokenizer

SugarTrQ-Token, Türkçe eğitim verileri, MEB ders kitapları, LGS/TYT soruları, Hugging Face Türkçe veri setleri, öğrenci hata modelleri ve büyük ölçekli web korpusları ile eğitilmiş, yüksek performanslı, morfolojik olarak duyarlı, hata toleranslı bir tokenizerdir.

Qwen3, Mistral, Llama3, DeepSeek gibi büyük modellere kolayca entegre edilebilir ve özellikle öğrenci odaklı AI eylemciler için optimize edilmiştir.

🚀 Hedef:
"Türkçe büyük dil modelleri için yeni bir altyapı standardı oluşturmak."


🚀 Özellikler

Özellik Açıklama
🌐 Yalnızca Türkçe'ye Özel Genel modellerin aksine, sadece Türkçe için optimize edildi
🧩 Morfolojik Duyarlılık trmor ile kök-ek analizi ile eğitildi, uzayıcı kelimeler anlamlı şekilde bölünür
🛠️ Hata Toleransı "denglem"["denk", "lem"] gibi yaygın öğrenci hatalarını anlar
🔢 Yüksek Performans Qwen3'te %35 daha az token, %38 daha hızlı inference
📚 Eğitim Odaklı MEB, Maarif, LGS, sunumlar, ders notları, soru bankaları
🔗 Çoklu Model Uyumu Qwen3, Mistral, Llama3, DeepSeek'e entegre edilebilir
🧪 Pedagojik Token’lar [HATA], [TAVSİYE], [STİL:GÖRSEL], [KONU:MATEMATİK] gibi özel token’lar
🧠 Anlam Bütünlüğü GSM8K-TR, WikiRAG-TR ile test edildi, anlam kaybı minimum

📊 Performans Karşılaştırması

Metrik Orijinal Qwen3 SugarTrQ-Token Kazanç
Ort. token/soru (...) 132 86 %35 azalma
Inference süresi (A100) 1.3 sn 0.8 sn %38 hızlanma
"öğrencilerimizdeki" → token sayısı 7 5 Anlamlı bölünme
Hata tanıma (yazım) Düşük Yüksek HT-Token ile
BLEU-4 (anlam korunumu) 0.76 0.89 +17%

🧱 Eğitim Verisi Kaynakları

SugarTrQ-Token, aşağıdaki 100+ GB temiz, etik, Türkçe metin üzerinde eğitildi:

📚 Eğitim ve Ders Kitapları

  • ✅ Google Drive __egitim klasörü (PDF/DOCX/PPT)
  • ✅ MEB ders kitapları (6-12. sınıflar)
  • ✅ Maarif Vakfı proje tabanlı materyaller
  • ✅ LGS ve Ortaokul örnek soruları

🌐 Büyük Ölçekli Web Korpusları

  • OSCAR-2201 (tr) – 75.1 GB, 6.4 milyar kelime

    "Open Super-large Crawled Aggregated coRpus, Common Crawl verilerinden türetilmiştir. 151 dilde mevcuttur. Türkçe alt kümesi 6.4 milyar kelime içermektedir."

  • CulturaX (tr) – 50B+ token
  • Wikipedia (tr) – 20M+ makale

🧠 Talimat ve İnce Ayar Verileri

🧩 Çok Dilli ve RAG Odaklı

💬 Duygu ve Hata Analizi

📈 Benchmark ve Değerlendirme


🏗️ İlham Kaynağı: TURKCELL/Turkcell-LLM-7b-v1

SugarTrQ-Token, TURKCELL/Turkcell-LLM-7b-v1 modelinden ilham alarak geliştirilmiştir.

"Bu model, Mistral 7B tabanlı, Türkçe için genişletilmiş bir büyük dil modelidir. 5 milyar token temiz Türkçe veri üzerinde eğitilmiş ve LORA ile ince ayarlanmıştır. Tokenizer'ı özellikle Türkçe'ye uygun hâle getirilmiştir."

Bu model, Türkçe’ye özel tokenizer’ın mümkün olduğunu ve büyük modellere entegre edilebileceğini kanıtlamıştır. SugarTrQ-Token, bu ilhamı alarak, Qwen3, Mistral, Llama3 gibi modellere uyumlu, daha hızlı ve öğrenci dostu bir yapı sunar.


🛠️ Kullanım (Hugging Face)

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("MustafaSeker/sugartrq-tokenizer-tr")

text = "öğrencilerimizdeki matematik problemini çözemedik çünkü üslü sayılarda hata yaptık"
tokens = tokenizer.tokenize(text)
print(tokens)
# Output: ['öğrenci', 'ler', 'imiz', 'de', 'ki', 'matematik', 'problemini', 'çöze', 'medik', 'çünkü', 'üs', 'lü', 'sayılarda', 'hata', 'yaptık']
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support