ai
Zpětnovazební učení
Zpětnovazební učení (RL) je paradigma strojového učení, kde se agent učí optimálnímu chování interakcí s prostředím a přijímáním odměn nebo penalizací. RLHF (Reinforcement Learning from Human Feedback) je klíčová technika používaná k alignmentu LLM s lidskými preferencemi, díky níž jsou výstupy modelů užitečnější a bezpečnější. RL stojí také za průlomy v herní AI a robotice.
#ai