Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

32

Full-text search

Active filters: PPO

fb700/chatglm-fitness-RLHF

Updated Mar 6, 2024 • 268

fb700/Bofan-chatglm-Best-lora

Updated Aug 24, 2023 • 15 • 11

sehyun66/Tiny-lama-1.3B-chat-ppo

Question Answering • Updated Jan 13, 2024

Lichang-Chen/ODIN-ppo-L230-best

Text Generation • Updated Feb 14, 2024 • 6

vibhorg/rl4llm_uofm_nlpo_super_t5_arxiv

Updated Mar 20, 2024 • 11

vibhorg/rl4llm_uofm_nlpo_unsuper_t5_arxiv

Updated Mar 20, 2024 • 3

Fizzarolli/sapphia-410m-RM

Updated Apr 2, 2024

pt-sk/GPT2-IMDB-Sentiment-FineTuned-with-PPO

Text Generation • 0.1B • Updated Jun 25, 2024 • 18

pt-sk/GPT2_NonToxic

Text Generation • 0.1B • Updated Jul 15, 2024 • 7

Kwaai/GPT2_NonToxic

Text Generation • 0.1B • Updated Jul 20, 2024 • 11

Nagi-ovo/Llama-3-8B-PPO

Text Generation • 8B • Updated Jan 21, 2025 • 9

sthenno/tempesthenno-ppo-ckpt40

15B • Updated Feb 19, 2025 • 12 • 4

xi0v/tempesthenno-ppo-ckpt40-archive

15B • Updated Mar 4, 2025

Teen-Different/RxRovers_Roaming_for_Rapid_Relief

Reinforcement Learning • Updated Mar 30, 2025

estnafinema0/smolLM-variation-ppo

Text Generation • 0.1B • Updated Mar 30, 2025 • 6

FlameF0X/CanoPy

Reinforcement Learning • Updated Sep 5, 2025

AntonDergunov/LunarLander_PPO

Reinforcement Learning • Updated Oct 5, 2025

Tanaybh/lunar-lander-ppo

Reinforcement Learning • Updated Sep 21, 2025 • 2

Tanaybh/bipedal-walker-ppo

Reinforcement Learning • Updated Sep 21, 2025 • 4

HYDARIM7/SmolLM2_RLHF_PPO_HY

Reinforcement Learning • 0.1B • Updated Sep 21, 2025 • 12

ahan2000/Qwen2.5-FT-Deploy

Text Generation • 8B • Updated Sep 26, 2025 • 6

Vibudhbh/lander-ppo_rl

Reinforcement Learning • Updated Oct 2, 2025 • 2

Vibudhbh/bipedal-walker-ppo

Reinforcement Learning • Updated Oct 2, 2025 • 2

jhanschoo/ppo-LunarLander-v3

Reinforcement Learning • Updated Oct 29, 2025 • 3

cahlen/minecraft-learning-distributed_470k

Reinforcement Learning • Updated 6 days ago • 11

ketencrypt10n/ppo-lunar-lander

Reinforcement Learning • Updated 5 days ago • 11

hamzasheedi/humanoid-robotics

Reinforcement Learning • Updated 1 day ago • 9

hamzasheedi/humanoid

Reinforcement Learning • Updated 1 day ago • 2

hamzasheedi/humanoid1

Reinforcement Learning • Updated 1 day ago • 1

hamzasheedi/humanoid2

Reinforcement Learning • Updated about 3 hours ago