Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper
•
1908.10084
•
Published
•
11
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-small. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("e5-small-vi-rag")
# Run inference
sentences = [
'query: Điều kiện để thăng cấp bậc hàm trước thời hạn từ Đại tá lên Thiếu tướng Công an nhân dân như thế nào?',
'passage: Thăng cấp bậc hàm trước thời hạn và thăng cấp bậc hàm vượt bậc 1. Sĩ quan, hạ sĩ quan, chiến sĩ Công an nhân dân lập thành tích đặc biệt xuất sắc trong bảo vệ an ninh quốc gia, bảo đảm trật tự, an toàn xã hội, đấu tranh phòng, chống tội phạm và vi phạm pháp luật, xây dựng Công an nhân dân, nghiên cứu khoa học, công tác, học tập mà cấp bậc hàm hiện tại thấp hơn cấp bậc hàm cao nhất đối với chức vụ, chức danh sĩ quan, hạ sĩ quan, chiến sĩ đang đảm nhiệm thì được xét thăng cấp bậc hàm trước thời hạn. 2. Sĩ quan, hạ sĩ quan, chiến sĩ Công an nhân dân lập thành tích đặc biệt xuất sắc trong bảo vệ an ninh quốc gia, bảo đảm trật tự, an toàn xã hội, đấu tranh phòng, chống tội phạm và vi phạm pháp luật mà cấp bậc hàm hiện tại thấp hơn cấp bậc hàm cao nhất quy định đối với chức vụ, chức danh sĩ quan, hạ sĩ quan, chiến sĩ đang đảm nhiệm từ 02 bậc trở lên thì được xét thăng cấp bậc hàm vượt bậc, nhưng không vượt quá cấp bậc hàm cao nhất đối với chức vụ, chức danh sĩ quan đang đảm nhiệm. 3. Chủ tịch nước quyết định việc thăng cấp bậc hàm trước thời hạn và thăng cấp bậc hàm vượt bậc đối với cấp bậc hàm cấp tướng. Bộ trưởng Bộ Công an quyết định việc thăng cấp bậc hàm trước thời hạn và thăng cấp bậc hàm vượt bậc từ Đại tá trở xuống....',
'passage: Quy định chung về quản lý, sử dụng nghĩa trang... 5. Điều kiện đăng ký trước khi sử dụng phần mộ cá nhân trong nghĩa trang được đầu tư xây dựng từ nguồn vốn ngân sách nhà nước: a) Người được đăng ký trước phần mộ cá nhân trong nghĩa trang bao gồm: Người từ 70 tuổi trở lên, người mắc bệnh hiểm nghèo theo quy định do Bộ Y tế ban hành, người có vợ hoặc chồng đã được an táng trong nghĩa trang;...',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | list |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
query: Người học ngành quản lý khai thác công trình thủy lợi trình độ cao đẳng phải có khả năng học tập và nâng cao trình độ như thế nào? |
passage: Khả năng học tập, nâng cao trình độ - Khối lượng khối lượng kiến thức tối thiểu, yêu cầu về năng lực mà người học phải đạt được sau khi tốt nghiệp ngành, nghề Mộc xây dựng và trang trí nội thất, trình độ cao đẳng có thể tiếp tục phát triển ở các trình độ cao hơn; - Người học sau tốt nghiệp có năng lực tự học, tự cập nhật những tiến bộ khoa học công nghệ trong phạm vi ngành, nghề để nâng cao trình độ hoặc học liên thông lên trình độ cao hơn trong cùng ngành, nghề hoặc trong nhóm ngành, nghề hoặc trong cùng lĩnh vực đào tạo./. Người học ngành mộc xây dựng và trang trí nội thất trình độ cao đẳng phải có khả năng học tập, nâng cao trình độ như thế sau: - Khối lượng khối lượng kiến thức tối thiểu, yêu cầu về năng lực mà người học phải đạt được sau khi tốt nghiệp ngành, nghề Mộc xây dựng và trang trí nội thất, trình độ cao đẳng có thể tiếp tục phát triển ở các trình độ cao hơn; - Người học sau tốt nghiệp có năng lực tự học, tự cập nhật những tiến bộ khoa học công nghệ trong phạm vi ... |
['passage: Vụ Khoa học và Công nghệ bảo quản... Vụ Khoa học và Công nghệ bảo quản có các nhiệm vụ sau: 1. Xây dựng kế hoạch phát triển công nghệ bảo quản hàng dự trữ quốc gia trong từng thời kỳ; kế hoạch nghiên cứu khoa học; kế hoạch kiểm tra chất lượng hàng dự trữ quốc gia. Tổ chức thực hiện kế hoạch sau khi được cấp có thẩm quyền phê duyệt. 2. Xây dựng quy chuẩn kỹ thuật quốc gia, định mức kinh tế kỹ thuật hàng dự trữ quốc gia do Tổng cục Dự trữ Nhà nước trực tiếp quản lý. 3. Chủ trì, phối hợp với bộ, ngành quản lý hàng dự trữ quốc gia xây dựng quy chuẩn kỹ thuật quốc gia, định mức kinh tế - kỹ thuật hàng dự trữ quốc gia; tiêu chuẩn kho dự trữ quốc gia (không bao gồm kho dự trữ quốc gia của Bộ Công an và Bộ Quốc phòng). 4. Xây dựng chương trình, dự án, đề án, triển khai áp dụng các giải pháp công nghệ tiên tiến trong bảo quản hàng dự trữ quốc gia; sử dụng có hiệu quả các nguồn lực khoa học và công nghệ phục vụ công tác bảo quản hàng dự trữ quốc gia. 5. Xây dựng văn bản hướng dẫn quy ... |
query: Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật được quy định thế nào? |
passage: Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật Trong phạm vi điều chỉnh của văn bản quy phạm pháp luật: 1. Xác định nội dung liên quan đến vấn đề bình đẳng giới hoặc vấn đề bất bình đẳng giới, phân biệt đối xử về giới. 2. Quy định các biện pháp cần thiết để thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới; dự báo tác động của các quy định đó đối với nam và nữ sau khi được ban hành. 3. Xác định nguồn nhân lực, tài chính cần thiết để triển khai các biện pháp thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới. |
['passage: 1. Chứng chỉ hành nghề đo đạc và bản đồ bị thu hồi trong các trường hợp cá nhân được cấp chứng chỉ vi phạm các hành vi bị nghiêm cấm trong hoạt động đo đạc và bản đồ được quy định tại Điều 6 của Luật Đo đạc và bản đồ và quy định khác của pháp luật có liên quan. 2. Sau khi nhận được văn bản kiến nghị của cơ quan thanh tra, kiểm tra, cơ quan có thẩm quyền khác theo quy định của pháp luật về việc thu hồi chứng chỉ hành nghề đo đạc và bản đồ của cá nhân, cơ quan cấp chứng chỉ có trách nhiệm ra quyết định thu hồi chứng chỉ hành nghề đo đạc và bản đồ, đăng tải công khai danh sách cá nhân bị thu hồi chứng chỉ hành nghề đo đạc và bản đồ; xóa tên khỏi danh sách công khai cá nhân hành nghề đo đạc và bản đồ trên cổng thông tin điện tử của cơ quan cấp chứng chỉ, gửi bản sao quyết định thu hồi chứng chỉ hành nghề đo đạc và bản đồ tới cơ quan, tổ chức có liên quan. 3. Cá nhân bị thu hồi chứng chỉ hành nghề đo đạc và bản đồ phải chấm dứt hành nghề đo đạc và bản đồ kể từ ngày quyết định thu... |
query: Sản phẩm phần mềm có được hưởng ưu đãi về thời gian miễn thuế, giảm thuế hay không? Nếu được thì trong vòng bao nhiêu năm? |
passage: "Điều 20. Ưu đãi về thời gian miễn thuế, giảm thuế 1. Miễn thuế bốn năm, giảm 50% số thuế phải nộp trong chín năm tiếp theo đối với: a) Thu nhập của doanh nghiệp từ thực hiện dự án đầu tư quy định tại khoản 1 Điều 19 Thông tư số 78/2014/TT-BTC (được sửa đổi, bổ sung tại Khoản 1 Điều 11 Thông tư này)." |
['passage: Tân Phú 11° 21’ 56” 107° 31’ 32” 10° 56’ 37” 107° 08’ 18” C-48-23-D-b, C-48-24-A-c đường 30-4 KX xã Phú Bình H. Tân Phú 11° 17’ 41” 107° 29’ 51” 11° 16’ 01” 107° 31’ 18” C-48-23-B-d, C-48-24-A-c giáo xứ An Lâm KX xã Phú Bình H. Tân Phú 11° 16’ 55” 107° 31’ 00” C-48-24-A-c Bàu Cát TV xã Phú Bình H. Tân Phú 11° 15’ 15” 107° 29’ 38” C-48-23-B-d bàu Cây Da TV xã Phú Bình H. Tân Phú 11° 14’ 53” 107° 29’ 52” C-48-23-B-d sông La Ngà TV xã Phú Bình H. Tân Phú 11° 15’ 10” 107° 31’ 21” 11° 05’ 20” 107° 17’ 30” C-48-23-D-b, C-48-24-C-a, C-48-24-A-c bàu Nước Đục TV xã Phú Bình H. Tân Phú 11° 15’ 59” 107° 29’ 44” C-48-23-B-d ấp Phú Cường DC xã Phú Bình H. Tân Phú 11° 17’ 14” 107° 29’ 46” C-48-23-B-d ấp Phú Dũng DC xã Phú Bình H. Tân Phú 11° 17’ 36” 107° 29’ 49” C-48-23-B-d ấp Phú Hợp A DC xã Phú Bình H. Tân Phú 11° 17’ 11” 107° 30’ 36” C-48-24-A-c ấp Phú Hợp B DC xã Phú Bình H. Tân Phú 11° 15’ 53” 107° 31’ 14” C-48-24-A-c ấp Phú Kiên DC xã Phú Bình H. Tân Phú 11° 17’ 27” 107° 29’ 45” C-4... |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
per_device_train_batch_size: 16gradient_accumulation_steps: 2learning_rate: 3e-05weight_decay: 0.01num_train_epochs: 1.5lr_scheduler_type: cosinewarmup_ratio: 0.06fp16: Trueoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 2eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 3e-05weight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1.5max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: {}warmup_ratio: 0.06warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss |
|---|---|---|
| 0.0106 | 50 | 3.8859 |
| 0.0213 | 100 | 1.0663 |
| 0.0319 | 150 | 0.2772 |
| 0.0425 | 200 | 0.2198 |
| 0.0532 | 250 | 0.2119 |
| 0.0638 | 300 | 0.18 |
| 0.0745 | 350 | 0.1977 |
| 0.0851 | 400 | 0.2025 |
| 0.0957 | 450 | 0.1415 |
| 0.1064 | 500 | 0.1534 |
| 0.1170 | 550 | 0.1666 |
| 0.1276 | 600 | 0.1948 |
| 0.1383 | 650 | 0.1711 |
| 0.1489 | 700 | 0.1569 |
| 0.1596 | 750 | 0.1669 |
| 0.1702 | 800 | 0.1255 |
| 0.1808 | 850 | 0.1161 |
| 0.1915 | 900 | 0.1403 |
| 0.2021 | 950 | 0.1975 |
| 0.2127 | 1000 | 0.1064 |
| 0.2234 | 1050 | 0.1588 |
| 0.2340 | 1100 | 0.1354 |
| 0.2447 | 1150 | 0.118 |
| 0.2553 | 1200 | 0.1683 |
| 0.2659 | 1250 | 0.1335 |
| 0.2766 | 1300 | 0.1125 |
| 0.2872 | 1350 | 0.1218 |
| 0.2978 | 1400 | 0.1202 |
| 0.3085 | 1450 | 0.1827 |
| 0.3191 | 1500 | 0.1271 |
| 0.3298 | 1550 | 0.0872 |
| 0.3404 | 1600 | 0.149 |
| 0.3510 | 1650 | 0.1336 |
| 0.3617 | 1700 | 0.1019 |
| 0.3723 | 1750 | 0.0957 |
| 0.3829 | 1800 | 0.0895 |
| 0.3936 | 1850 | 0.1185 |
| 0.4042 | 1900 | 0.1124 |
| 0.4148 | 1950 | 0.1239 |
| 0.4255 | 2000 | 0.1385 |
| 0.4361 | 2050 | 0.1107 |
| 0.4468 | 2100 | 0.1041 |
| 0.4574 | 2150 | 0.1119 |
| 0.4680 | 2200 | 0.125 |
| 0.4787 | 2250 | 0.109 |
| 0.4893 | 2300 | 0.1537 |
| 0.4999 | 2350 | 0.0862 |
| 0.5106 | 2400 | 0.0808 |
| 0.5212 | 2450 | 0.0958 |
| 0.5319 | 2500 | 0.1256 |
| 0.5425 | 2550 | 0.1206 |
| 0.5531 | 2600 | 0.1044 |
| 0.5638 | 2650 | 0.0876 |
| 0.5744 | 2700 | 0.0988 |
| 0.5850 | 2750 | 0.0906 |
| 0.5957 | 2800 | 0.0856 |
| 0.6063 | 2850 | 0.091 |
| 0.6170 | 2900 | 0.1083 |
| 0.6276 | 2950 | 0.0994 |
| 0.6382 | 3000 | 0.1083 |
| 0.6489 | 3050 | 0.1125 |
| 0.6595 | 3100 | 0.1054 |
| 0.6701 | 3150 | 0.0875 |
| 0.6808 | 3200 | 0.0925 |
| 0.6914 | 3250 | 0.0862 |
| 0.7021 | 3300 | 0.0834 |
| 0.7127 | 3350 | 0.0794 |
| 0.7233 | 3400 | 0.1073 |
| 0.7340 | 3450 | 0.0666 |
| 0.7446 | 3500 | 0.0998 |
| 0.7552 | 3550 | 0.0984 |
| 0.7659 | 3600 | 0.086 |
| 0.7765 | 3650 | 0.0862 |
| 0.7872 | 3700 | 0.0911 |
| 0.7978 | 3750 | 0.0643 |
| 0.8084 | 3800 | 0.0788 |
| 0.8191 | 3850 | 0.1115 |
| 0.8297 | 3900 | 0.1159 |
| 0.8403 | 3950 | 0.0763 |
| 0.8510 | 4000 | 0.0893 |
| 0.8616 | 4050 | 0.0794 |
| 0.8722 | 4100 | 0.1027 |
| 0.8829 | 4150 | 0.0767 |
| 0.8935 | 4200 | 0.0639 |
| 0.9042 | 4250 | 0.094 |
| 0.9148 | 4300 | 0.1045 |
| 0.9254 | 4350 | 0.0761 |
| 0.9361 | 4400 | 0.0899 |
| 0.9467 | 4450 | 0.0755 |
| 0.9573 | 4500 | 0.0762 |
| 0.9680 | 4550 | 0.1127 |
| 0.9786 | 4600 | 0.0644 |
| 0.9893 | 4650 | 0.0814 |
| 0.9999 | 4700 | 0.0753 |
| 1.0104 | 4750 | 0.0574 |
| 1.0211 | 4800 | 0.0674 |
| 1.0317 | 4850 | 0.0684 |
| 1.0423 | 4900 | 0.0443 |
| 1.0530 | 4950 | 0.0839 |
| 1.0636 | 5000 | 0.0739 |
| 1.0742 | 5050 | 0.0552 |
| 1.0849 | 5100 | 0.0805 |
| 1.0955 | 5150 | 0.0588 |
| 1.1062 | 5200 | 0.0551 |
| 1.1168 | 5250 | 0.066 |
| 1.1274 | 5300 | 0.0776 |
| 1.1381 | 5350 | 0.0534 |
| 1.1487 | 5400 | 0.0824 |
| 1.1593 | 5450 | 0.0552 |
| 1.1700 | 5500 | 0.072 |
| 1.1806 | 5550 | 0.058 |
| 1.1913 | 5600 | 0.0717 |
| 1.2019 | 5650 | 0.0619 |
| 1.2125 | 5700 | 0.0662 |
| 1.2232 | 5750 | 0.0711 |
| 1.2338 | 5800 | 0.0695 |
| 1.2444 | 5850 | 0.0756 |
| 1.2551 | 5900 | 0.0699 |
| 1.2657 | 5950 | 0.0575 |
| 1.2764 | 6000 | 0.0646 |
| 1.2870 | 6050 | 0.0517 |
| 1.2976 | 6100 | 0.06 |
| 1.3083 | 6150 | 0.0621 |
| 1.3189 | 6200 | 0.0802 |
| 1.3295 | 6250 | 0.0545 |
| 1.3402 | 6300 | 0.0755 |
| 1.3508 | 6350 | 0.0622 |
| 1.3615 | 6400 | 0.0493 |
| 1.3721 | 6450 | 0.0746 |
| 1.3827 | 6500 | 0.0625 |
| 1.3934 | 6550 | 0.0531 |
| 1.4040 | 6600 | 0.0601 |
| 1.4146 | 6650 | 0.0624 |
| 1.4253 | 6700 | 0.065 |
| 1.4359 | 6750 | 0.0627 |
| 1.4465 | 6800 | 0.0508 |
| 1.4572 | 6850 | 0.0527 |
| 1.4678 | 6900 | 0.0656 |
| 1.4785 | 6950 | 0.0535 |
| 1.4891 | 7000 | 0.0623 |
| 1.4997 | 7050 | 0.0575 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
intfloat/multilingual-e5-small