SetFit-FinBERT1-Avg-acceptance / README.md

Henniina

Push model using huggingface_hub.

81adf68 verified about 1 month ago

preview code

raw

history blame contribute delete

12.3 kB

metadata

tags:
  - setfit
  - sentence-transformers
  - text-classification
  - generated_from_setfit_trainer
widget:
  - text: >-
      Etunimi Etunimi menetkö noin vaan takuuseen, ettei sodan johdosta näin
      käy? Ite en kyllä menis 100% sanomaan mitään mihin liittyy Putin ja
      Putinin sota
  - text: Kohta on lisää lapsia sairaalassa koronan vuoksi ☹
  - text: Etunimi Sukunimi pyöräily sekä kävely ovat hyvää liikuntaa
  - text: >-
      Etunimi Sukunimi Niin.. Nuo todelliset tartunyamäärät voivat olla ihan
      mitä tahansa. Mihinkään rajoitustoimiin ei tarvitsisi ryhtyä. Ihmiset
      voivat itse pitää huolta itsestää, ja valtion tehtävä on pitää huolta
      siitä että hoitokapasiteetti riittää. Tällä hetkellä meillä ei ole mitään
      hätää. Koko Suomessa tehohoidossa koronan vuoksi on noin 2p ihmistä.
      Tehohoitopaikkoja siis riittää vielä vaikka ja kuinka jos tarvetta.
      Korostan, että edelleenkin ovat turvavälit, hyvä hygienia ja turhien
      kontaktien välttäminen kaikkein tärkeintä. Mitään ei tarvitsisi rajoittaa,
      jollei ihmiset olisi niin helvetin tyhmiä, että osaisivat ajatella ihan
      omilla aivoillaan, eikä valtion tarvitsisi heitä opastaa kädestä pitäen
      kuten jotain pieniä lapsia.
  - text: >-
      Etunimi hallituksella pitää kuitenkin olla jokin pohja johon perustavat
      päätöksensä. Poikkeustilaa ei voi loputtomiin jatkaa vain mutulla, jolloin
      heidän on kuunneltava aiheen ammattilaisia.
metrics:
  - metric
pipeline_tag: text-classification
library_name: setfit
inference: true
base_model: TurkuNLP/bert-base-finnish-cased-v1
model-index:
  - name: SetFit with TurkuNLP/bert-base-finnish-cased-v1
    results:
      - task:
          type: text-classification
          name: Text Classification
        dataset:
          name: Unknown
          type: unknown
          split: test
        metrics:
          - type: metric
            value: 0.9230958686682255
            name: Metric

SetFit with TurkuNLP/bert-base-finnish-cased-v1

This is a SetFit model that can be used for Text Classification. This SetFit model uses TurkuNLP/bert-base-finnish-cased-v1 as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

Fine-tuning a Sentence Transformer with contrastive learning.
Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Type: SetFit
Sentence Transformer body: TurkuNLP/bert-base-finnish-cased-v1
Classification head: a LogisticRegression instance
Maximum Sequence Length: 512 tokens
Number of Classes: 2 classes

Model Sources

Repository: SetFit on GitHub
Paper: Efficient Few-Shot Learning Without Prompts
Blogpost: SetFit: Efficient Few-Shot Learning Without Prompts

Model Labels

Label	Examples
0	'Etunimi Sukunimi miten luulet tilanteen parantuneen kun sairaala- ja tehohoito potilaiden määrä on vain kasvanut silloisesta?\nOlet niin totaalisen puusilmäinen ja hallirusvihan vallassa, että tätä on turha jatkaa pitemmälle. Pysy terveenä ja rauhallista joulua!' '"Hylkiö" unionin toimesta johon ei kuulu.' 'Etunimi Almonkari-Kuikka en nyt varsinaisesti pelkästään tuota aihetta tarkoittanutkaan. Sekin on kuitenkin vähintään kyseenalaista, koska kyseessä ei ole valmis tuote, vaan hätämyyntiluvalla käytössä oleva ruiske, ja sen seurauksena on niinikään perusoikeudellinen terveydenhuollon taso turvaamattomalla tasolla.'
1	'Etunimi Sukunimi Niin on.. ja valtioita joista lähinnä venäjä ja valko-venäjä.' 'Etunimi Sukunimi mulla sama tilanne ja epäilemättä ympäri Suomea, tätähän ei ikinä tulla myöntämään, mutta ei tarvi ku katella ympärilleen, niin joka paikassa sama😁' 'Etunimi Sukunimi juuri noin. En ole elänyt sodan aikaa,mutta isän kertomat muistan hyvin. Jospa sota loppuu.'

Label

Examples

'Etunimi Sukunimi miten luulet tilanteen parantuneen kun sairaala- ja tehohoito potilaiden määrä on vain kasvanut silloisesta?\nOlet niin totaalisen puusilmäinen ja hallirusvihan vallassa, että tätä on turha jatkaa pitemmälle. Pysy terveenä ja rauhallista joulua!'
'"Hylkiö" unionin toimesta johon ei kuulu.'
'Etunimi Almonkari-Kuikka en nyt varsinaisesti pelkästään tuota aihetta tarkoittanutkaan. Sekin on kuitenkin vähintään kyseenalaista, koska kyseessä ei ole valmis tuote, vaan hätämyyntiluvalla käytössä oleva ruiske, ja sen seurauksena on niinikään perusoikeudellinen terveydenhuollon taso turvaamattomalla tasolla.'

'Etunimi Sukunimi Niin on.. ja valtioita joista lähinnä venäjä ja valko-venäjä.'
'Etunimi Sukunimi mulla sama tilanne ja epäilemättä ympäri Suomea, tätähän ei ikinä tulla myöntämään, mutta ei tarvi ku katella ympärilleen, niin joka paikassa sama😁'
'Etunimi Sukunimi juuri noin. En ole elänyt sodan aikaa,mutta isän kertomat muistan hyvin. Jospa sota loppuu.'

Evaluation

Metrics

Label	Metric
all	0.9231

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("Finnish-actions/SetFit-FinBERT1-Avg-acceptance")
# Run inference
preds = model("Kohta on lisää lapsia sairaalassa koronan vuoksi ☹")

Training Details

Training Set Metrics

Training set	Min	Median	Max
Word count	1	19.9323	213

Label	Training Sample Count
0	763
1	79

Training Hyperparameters

batch_size: (16, 16)
num_epochs: (4, 4)
max_steps: -1
sampling_strategy: oversampling
num_iterations: 6
body_learning_rate: (2e-05, 1e-05)
head_learning_rate: 0.01
loss: CosineSimilarityLoss
distance_metric: cosine_distance
margin: 0.25
end_to_end: False
use_amp: False
warmup_proportion: 0.1
l2_weight: 0.01
seed: 42
evaluation_strategy: epoch
eval_max_steps: -1
load_best_model_at_end: False

Training Results

Epoch	Step	Training Loss	Validation Loss
0.0016	1	0.2302	-
0.0791	50	0.2706	-
0.1582	100	0.2415	-
0.2373	150	0.1881	-
0.3165	200	0.0944	-
0.3956	250	0.022	-
0.4747	300	0.0116	-
0.5538	350	0.0034	-
0.6329	400	0.0032	-
0.7120	450	0.0017	-
0.7911	500	0.0071	-
0.8703	550	0.0017	-
0.9494	600	0.0013	-
1.0	632	-	0.3158
1.0285	650	0.0006	-
1.1076	700	0.0163	-
1.1867	750	0.0026	-
1.2658	800	0.0046	-
1.3449	850	0.003	-
1.4241	900	0.0018	-
1.5032	950	0.0026	-
1.5823	1000	0.0043	-
1.6614	1050	0.0031	-
1.7405	1100	0.0014	-
1.8196	1150	0.0026	-
1.8987	1200	0.0011	-
1.9778	1250	0.0014	-
2.0	1264	-	0.2581
2.0570	1300	0.0001	-
2.1361	1350	0.0001	-
2.2152	1400	0.0032	-
2.2943	1450	0.0001	-
2.3734	1500	0.0038	-
2.4525	1550	0.0015	-
2.5316	1600	0.0026	-
2.6108	1650	0.0029	-
2.6899	1700	0.0025	-
2.7690	1750	0.0013	-
2.8481	1800	0.0024	-
2.9272	1850	0.0042	-
3.0	1896	-	0.2681
3.0063	1900	0.0029	-
3.0854	1950	0.0024	-
3.1646	2000	0.0025	-
3.2437	2050	0.0029	-
3.3228	2100	0.0016	-
3.4019	2150	0.0027	-
3.4810	2200	0.0033	-
3.5601	2250	0.0012	-
3.6392	2300	0.0005	-
3.7184	2350	0.0013	-
3.7975	2400	0.005	-
3.8766	2450	0.0002	-
3.9557	2500	0.0015	-
4.0	2528	-	0.2362

Framework Versions

Python: 3.11.9
SetFit: 1.1.3
Sentence Transformers: 3.2.0
Transformers: 4.44.0
PyTorch: 2.4.0+cu124
Datasets: 2.21.0
Tokenizers: 0.19.1

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}