InstructGPTの概要まとめ〜GPT3、RLHF、RewardModel〜 - あつまれ統計の森

InstructGPTの概要まとめ〜GPT3、RLHF、RewardModel〜

近年大きな注目を集めるChatGPTの学習にあたっては、強化学習に基づくRLHF(Reinforcement Learning from Human Feedback)がfinetuningに用いられます。当記事では同様 … 続きを読む InstructGPTの概要まとめ〜GPT3、RLHF、RewardModel〜