タグ: RLHF

InstructGPTの概要まとめ〜GPT3、RLHF、RewardModel〜

投稿日: 2023-07-232023-09-14 投稿者: lib-arts

近年大きな注目を集めるChatGPTの学習にあたっては、強化学習に基づくRLHF(Reinforcement Learning from Human Feedback)がfinetuningに用いられます。当記事では同様…