| language: | |
| - vi | |
| tags: | |
| - sentiment | |
| - classification | |
| license: mit | |
| widget: | |
| - text: "Không thể nào đẹp hơn" | |
| - text: "Quá phí tiền, mà không đẹp" | |
| - text: "Cái này giá ổn không nhỉ?" | |
| [**GitHub Homepage**](https://github.com/wonrax/phobert-base-vietnamese-sentiment) | |
| A model fine-tuned for sentiment analysis based on [vinai/phobert-base](https://huggingface.co/vinai/phobert-base). | |
| Labels: | |
| - NEG: Negative | |
| - POS: Positive | |
| - NEU: Neutral | |
| Dataset: [30K e-commerce reviews](https://www.kaggle.com/datasets/linhlpv/vietnamese-sentiment-analyst) | |
| ## Usage | |
| ```python | |
| import torch | |
| from transformers import RobertaForSequenceClassification, AutoTokenizer | |
| model = RobertaForSequenceClassification.from_pretrained("wonrax/phobert-base-vietnamese-sentiment") | |
| tokenizer = AutoTokenizer.from_pretrained("wonrax/phobert-base-vietnamese-sentiment", use_fast=False) | |
| # Just like PhoBERT: INPUT TEXT MUST BE ALREADY WORD-SEGMENTED! | |
| sentence = 'Đây là mô_hình rất hay , phù_hợp với điều_kiện và như cầu của nhiều người .' | |
| input_ids = torch.tensor([tokenizer.encode(sentence)]) | |
| with torch.no_grad(): | |
| out = model(input_ids) | |
| print(out.logits.softmax(dim=-1).tolist()) | |
| # Output: | |
| # [[0.002, 0.988, 0.01]] | |
| # ^ ^ ^ | |
| # NEG POS NEU | |
| ``` | |