SentenceTransformer based on intfloat/multilingual-e5-small

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-small. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-small
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("e5-small-vi-rag")
# Run inference
sentences = [
    'query: Điều kiện để thăng cấp bậc hàm trước thời hạn từ Đại tá lên Thiếu tướng Công an nhân dân như thế nào?',
    'passage: Thăng cấp bậc hàm trước thời hạn và thăng cấp bậc hàm vượt bậc 1. Sĩ quan, hạ sĩ quan, chiến sĩ Công an nhân dân lập thành tích đặc biệt xuất sắc trong bảo vệ an ninh quốc gia, bảo đảm trật tự, an toàn xã hội, đấu tranh phòng, chống tội phạm và vi phạm pháp luật, xây dựng Công an nhân dân, nghiên cứu khoa học, công tác, học tập mà cấp bậc hàm hiện tại thấp hơn cấp bậc hàm cao nhất đối với chức vụ, chức danh sĩ quan, hạ sĩ quan, chiến sĩ đang đảm nhiệm thì được xét thăng cấp bậc hàm trước thời hạn. 2. Sĩ quan, hạ sĩ quan, chiến sĩ Công an nhân dân lập thành tích đặc biệt xuất sắc trong bảo vệ an ninh quốc gia, bảo đảm trật tự, an toàn xã hội, đấu tranh phòng, chống tội phạm và vi phạm pháp luật mà cấp bậc hàm hiện tại thấp hơn cấp bậc hàm cao nhất quy định đối với chức vụ, chức danh sĩ quan, hạ sĩ quan, chiến sĩ đang đảm nhiệm từ 02 bậc trở lên thì được xét thăng cấp bậc hàm vượt bậc, nhưng không vượt quá cấp bậc hàm cao nhất đối với chức vụ, chức danh sĩ quan đang đảm nhiệm. 3. Chủ tịch nước quyết định việc thăng cấp bậc hàm trước thời hạn và thăng cấp bậc hàm vượt bậc đối với cấp bậc hàm cấp tướng. Bộ trưởng Bộ Công an quyết định việc thăng cấp bậc hàm trước thời hạn và thăng cấp bậc hàm vượt bậc từ Đại tá trở xuống....',
    'passage: Quy định chung về quản lý, sử dụng nghĩa trang... 5. Điều kiện đăng ký trước khi sử dụng phần mộ cá nhân trong nghĩa trang được đầu tư xây dựng từ nguồn vốn ngân sách nhà nước: a) Người được đăng ký trước phần mộ cá nhân trong nghĩa trang bao gồm: Người từ 70 tuổi trở lên, người mắc bệnh hiểm nghèo theo quy định do Bộ Y tế ban hành, người có vợ hoặc chồng đã được an táng trong nghĩa trang;...',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 150,410 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string list
    details
    • min: 11 tokens
    • mean: 27.81 tokens
    • max: 51 tokens
    • min: 54 tokens
    • mean: 278.83 tokens
    • max: 512 tokens
    • size: 10 elements
  • Samples:
    anchor positive negative
    query: Người học ngành quản lý khai thác công trình thủy lợi trình độ cao đẳng phải có khả năng học tập và nâng cao trình độ như thế nào? passage: Khả năng học tập, nâng cao trình độ - Khối lượng khối lượng kiến thức tối thiểu, yêu cầu về năng lực mà người học phải đạt được sau khi tốt nghiệp ngành, nghề Mộc xây dựng và trang trí nội thất, trình độ cao đẳng có thể tiếp tục phát triển ở các trình độ cao hơn; - Người học sau tốt nghiệp có năng lực tự học, tự cập nhật những tiến bộ khoa học công nghệ trong phạm vi ngành, nghề để nâng cao trình độ hoặc học liên thông lên trình độ cao hơn trong cùng ngành, nghề hoặc trong nhóm ngành, nghề hoặc trong cùng lĩnh vực đào tạo./. Người học ngành mộc xây dựng và trang trí nội thất trình độ cao đẳng phải có khả năng học tập, nâng cao trình độ như thế sau: - Khối lượng khối lượng kiến thức tối thiểu, yêu cầu về năng lực mà người học phải đạt được sau khi tốt nghiệp ngành, nghề Mộc xây dựng và trang trí nội thất, trình độ cao đẳng có thể tiếp tục phát triển ở các trình độ cao hơn; - Người học sau tốt nghiệp có năng lực tự học, tự cập nhật những tiến bộ khoa học công nghệ trong phạm vi ... ['passage: Vụ Khoa học và Công nghệ bảo quản... Vụ Khoa học và Công nghệ bảo quản có các nhiệm vụ sau: 1. Xây dựng kế hoạch phát triển công nghệ bảo quản hàng dự trữ quốc gia trong từng thời kỳ; kế hoạch nghiên cứu khoa học; kế hoạch kiểm tra chất lượng hàng dự trữ quốc gia. Tổ chức thực hiện kế hoạch sau khi được cấp có thẩm quyền phê duyệt. 2. Xây dựng quy chuẩn kỹ thuật quốc gia, định mức kinh tế kỹ thuật hàng dự trữ quốc gia do Tổng cục Dự trữ Nhà nước trực tiếp quản lý. 3. Chủ trì, phối hợp với bộ, ngành quản lý hàng dự trữ quốc gia xây dựng quy chuẩn kỹ thuật quốc gia, định mức kinh tế - kỹ thuật hàng dự trữ quốc gia; tiêu chuẩn kho dự trữ quốc gia (không bao gồm kho dự trữ quốc gia của Bộ Công an và Bộ Quốc phòng). 4. Xây dựng chương trình, dự án, đề án, triển khai áp dụng các giải pháp công nghệ tiên tiến trong bảo quản hàng dự trữ quốc gia; sử dụng có hiệu quả các nguồn lực khoa học và công nghệ phục vụ công tác bảo quản hàng dự trữ quốc gia. 5. Xây dựng văn bản hướng dẫn quy ...
    query: Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật được quy định thế nào? passage: Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật Trong phạm vi điều chỉnh của văn bản quy phạm pháp luật: 1. Xác định nội dung liên quan đến vấn đề bình đẳng giới hoặc vấn đề bất bình đẳng giới, phân biệt đối xử về giới. 2. Quy định các biện pháp cần thiết để thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới; dự báo tác động của các quy định đó đối với nam và nữ sau khi được ban hành. 3. Xác định nguồn nhân lực, tài chính cần thiết để triển khai các biện pháp thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới. ['passage: 1. Chứng chỉ hành nghề đo đạc và bản đồ bị thu hồi trong các trường hợp cá nhân được cấp chứng chỉ vi phạm các hành vi bị nghiêm cấm trong hoạt động đo đạc và bản đồ được quy định tại Điều 6 của Luật Đo đạc và bản đồ và quy định khác của pháp luật có liên quan. 2. Sau khi nhận được văn bản kiến nghị của cơ quan thanh tra, kiểm tra, cơ quan có thẩm quyền khác theo quy định của pháp luật về việc thu hồi chứng chỉ hành nghề đo đạc và bản đồ của cá nhân, cơ quan cấp chứng chỉ có trách nhiệm ra quyết định thu hồi chứng chỉ hành nghề đo đạc và bản đồ, đăng tải công khai danh sách cá nhân bị thu hồi chứng chỉ hành nghề đo đạc và bản đồ; xóa tên khỏi danh sách công khai cá nhân hành nghề đo đạc và bản đồ trên cổng thông tin điện tử của cơ quan cấp chứng chỉ, gửi bản sao quyết định thu hồi chứng chỉ hành nghề đo đạc và bản đồ tới cơ quan, tổ chức có liên quan. 3. Cá nhân bị thu hồi chứng chỉ hành nghề đo đạc và bản đồ phải chấm dứt hành nghề đo đạc và bản đồ kể từ ngày quyết định thu...
    query: Sản phẩm phần mềm có được hưởng ưu đãi về thời gian miễn thuế, giảm thuế hay không? Nếu được thì trong vòng bao nhiêu năm? passage: "Điều 20. Ưu đãi về thời gian miễn thuế, giảm thuế 1. Miễn thuế bốn năm, giảm 50% số thuế phải nộp trong chín năm tiếp theo đối với: a) Thu nhập của doanh nghiệp từ thực hiện dự án đầu tư quy định tại khoản 1 Điều 19 Thông tư số 78/2014/TT-BTC (được sửa đổi, bổ sung tại Khoản 1 Điều 11 Thông tư này)." ['passage: Tân Phú 11° 21’ 56” 107° 31’ 32” 10° 56’ 37” 107° 08’ 18” C-48-23-D-b, C-48-24-A-c đường 30-4 KX xã Phú Bình H. Tân Phú 11° 17’ 41” 107° 29’ 51” 11° 16’ 01” 107° 31’ 18” C-48-23-B-d, C-48-24-A-c giáo xứ An Lâm KX xã Phú Bình H. Tân Phú 11° 16’ 55” 107° 31’ 00” C-48-24-A-c Bàu Cát TV xã Phú Bình H. Tân Phú 11° 15’ 15” 107° 29’ 38” C-48-23-B-d bàu Cây Da TV xã Phú Bình H. Tân Phú 11° 14’ 53” 107° 29’ 52” C-48-23-B-d sông La Ngà TV xã Phú Bình H. Tân Phú 11° 15’ 10” 107° 31’ 21” 11° 05’ 20” 107° 17’ 30” C-48-23-D-b, C-48-24-C-a, C-48-24-A-c bàu Nước Đục TV xã Phú Bình H. Tân Phú 11° 15’ 59” 107° 29’ 44” C-48-23-B-d ấp Phú Cường DC xã Phú Bình H. Tân Phú 11° 17’ 14” 107° 29’ 46” C-48-23-B-d ấp Phú Dũng DC xã Phú Bình H. Tân Phú 11° 17’ 36” 107° 29’ 49” C-48-23-B-d ấp Phú Hợp A DC xã Phú Bình H. Tân Phú 11° 17’ 11” 107° 30’ 36” C-48-24-A-c ấp Phú Hợp B DC xã Phú Bình H. Tân Phú 11° 15’ 53” 107° 31’ 14” C-48-24-A-c ấp Phú Kiên DC xã Phú Bình H. Tân Phú 11° 17’ 27” 107° 29’ 45” C-4...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • gradient_accumulation_steps: 2
  • learning_rate: 3e-05
  • weight_decay: 0.01
  • num_train_epochs: 1.5
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.06
  • fp16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1.5
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.06
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss
0.0106 50 3.8859
0.0213 100 1.0663
0.0319 150 0.2772
0.0425 200 0.2198
0.0532 250 0.2119
0.0638 300 0.18
0.0745 350 0.1977
0.0851 400 0.2025
0.0957 450 0.1415
0.1064 500 0.1534
0.1170 550 0.1666
0.1276 600 0.1948
0.1383 650 0.1711
0.1489 700 0.1569
0.1596 750 0.1669
0.1702 800 0.1255
0.1808 850 0.1161
0.1915 900 0.1403
0.2021 950 0.1975
0.2127 1000 0.1064
0.2234 1050 0.1588
0.2340 1100 0.1354
0.2447 1150 0.118
0.2553 1200 0.1683
0.2659 1250 0.1335
0.2766 1300 0.1125
0.2872 1350 0.1218
0.2978 1400 0.1202
0.3085 1450 0.1827
0.3191 1500 0.1271
0.3298 1550 0.0872
0.3404 1600 0.149
0.3510 1650 0.1336
0.3617 1700 0.1019
0.3723 1750 0.0957
0.3829 1800 0.0895
0.3936 1850 0.1185
0.4042 1900 0.1124
0.4148 1950 0.1239
0.4255 2000 0.1385
0.4361 2050 0.1107
0.4468 2100 0.1041
0.4574 2150 0.1119
0.4680 2200 0.125
0.4787 2250 0.109
0.4893 2300 0.1537
0.4999 2350 0.0862
0.5106 2400 0.0808
0.5212 2450 0.0958
0.5319 2500 0.1256
0.5425 2550 0.1206
0.5531 2600 0.1044
0.5638 2650 0.0876
0.5744 2700 0.0988
0.5850 2750 0.0906
0.5957 2800 0.0856
0.6063 2850 0.091
0.6170 2900 0.1083
0.6276 2950 0.0994
0.6382 3000 0.1083
0.6489 3050 0.1125
0.6595 3100 0.1054
0.6701 3150 0.0875
0.6808 3200 0.0925
0.6914 3250 0.0862
0.7021 3300 0.0834
0.7127 3350 0.0794
0.7233 3400 0.1073
0.7340 3450 0.0666
0.7446 3500 0.0998
0.7552 3550 0.0984
0.7659 3600 0.086
0.7765 3650 0.0862
0.7872 3700 0.0911
0.7978 3750 0.0643
0.8084 3800 0.0788
0.8191 3850 0.1115
0.8297 3900 0.1159
0.8403 3950 0.0763
0.8510 4000 0.0893
0.8616 4050 0.0794
0.8722 4100 0.1027
0.8829 4150 0.0767
0.8935 4200 0.0639
0.9042 4250 0.094
0.9148 4300 0.1045
0.9254 4350 0.0761
0.9361 4400 0.0899
0.9467 4450 0.0755
0.9573 4500 0.0762
0.9680 4550 0.1127
0.9786 4600 0.0644
0.9893 4650 0.0814
0.9999 4700 0.0753
1.0104 4750 0.0574
1.0211 4800 0.0674
1.0317 4850 0.0684
1.0423 4900 0.0443
1.0530 4950 0.0839
1.0636 5000 0.0739
1.0742 5050 0.0552
1.0849 5100 0.0805
1.0955 5150 0.0588
1.1062 5200 0.0551
1.1168 5250 0.066
1.1274 5300 0.0776
1.1381 5350 0.0534
1.1487 5400 0.0824
1.1593 5450 0.0552
1.1700 5500 0.072
1.1806 5550 0.058
1.1913 5600 0.0717
1.2019 5650 0.0619
1.2125 5700 0.0662
1.2232 5750 0.0711
1.2338 5800 0.0695
1.2444 5850 0.0756
1.2551 5900 0.0699
1.2657 5950 0.0575
1.2764 6000 0.0646
1.2870 6050 0.0517
1.2976 6100 0.06
1.3083 6150 0.0621
1.3189 6200 0.0802
1.3295 6250 0.0545
1.3402 6300 0.0755
1.3508 6350 0.0622
1.3615 6400 0.0493
1.3721 6450 0.0746
1.3827 6500 0.0625
1.3934 6550 0.0531
1.4040 6600 0.0601
1.4146 6650 0.0624
1.4253 6700 0.065
1.4359 6750 0.0627
1.4465 6800 0.0508
1.4572 6850 0.0527
1.4678 6900 0.0656
1.4785 6950 0.0535
1.4891 7000 0.0623
1.4997 7050 0.0575

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.52.4
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.8.1
  • Datasets: 3.6.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nqdhocai/e5-small-vi-rag

Finetuned
(130)
this model

Papers for nqdhocai/e5-small-vi-rag