Index

Published Dec 26, 2023 Updated Dec 26, 2023

RLHF

Contents

To Read

Interesting method which is now widespread of improving LLMs to better match human preferences using RL.

To Read

Goldberg defense
Chip Hyung RLHF: Reinforcement Learning from Human Feedback
HF Illustrating Reinforcement Learning from Human Feedback (RLHF)