Reinforcement Learning with Human Feedback (RLHF)

TRL

RLHF on GPT-2

สอนให้ Model Generate ข้อความเชิงบวก (Positive Sentiment) ได้มากขึ้นด้วย PPO https://colab.research.google.com/drive/1qce78Q00SY7CKXLVtiSGFbP5C1V_nypn?usp=sharing

สอนให้ Model Generate ข้อความในเชิงบวก กลางๆ หรือเชิงลบ (Controlled Sentiment) โดยการกำหนด Prefix ใน Input https://colab.research.google.com/drive/19CWnz8xhuV026nBuDEEUEMflTK9ENMIj?usp=sharing

Last updated