Posilovací učení

/ˌriːɪnˈfɔːrsmənt ˈlɜːrnɪŋ/

Also known as: RL, reward-based learning, trial-and-error learning

research intermediate

Co je posilovací učení?

Posilovací učení (RL) je odvětví strojového učení, kde se agent učí rozhodovat interakcí s prostředím. Na rozdíl od učení s učitelem, kde se model učí z označených příkladů, RL agenti se učí pokusem a omylem, dostávají odměny nebo tresty na základě svých akcí. Cílem je objevit policy—strategii pro volbu akcí—která maximalizuje kumulativní odměnu v čase.

Paradigma je inspirováno behaviorální psychologií: stejně jako se zvířata učí chování prostřednictvím pozitivního a negativního posílení, RL agenti se učí zažíváním důsledků svých akcí.

Klíčové komponenty

Agent: Učící se nebo rozhodovač, který provádí akce v prostředí.

Prostředí: Svět, se kterým agent interaguje, který se mění na základě akcí agenta.

Stav: Reprezentace aktuální situace, ve které se agent nachází.

Akce: Volba, kterou může agent udělat a která ovlivní prostředí.

Odměna: Numerický signál indikující, jak dobrá nebo špatná byla akce.

Policy: Strategie, kterou agent používá k volbě akcí na základě stavů.

Proč záleží posilovací učení pro AI

Posilovací učení bylo ústřední pro mnoho nejimpresivnějších úspěchů AI:

  • Hraní her: AlphaGo od DeepMind používalo RL k porážce světového šampiona v go
  • Robotika: RL umožňuje robotům naučit se komplexní motorické dovednosti praxí
  • LLM zarovnání: RLHF (Reinforcement Learning from Human Feedback) se stalo výchozí technikou pro zarovnání velkých jazykových modelů jako ChatGPT, Claude a Gemini

V roce 2025 RL zažilo oživení s průlomy jako DeepSeek-R1, který použil RL-based trénink k dosažení velkých vylepšení v uvažování. Výzkumníci se stále více obracejí k RL k posílení schopností uvažování a agentního chování v AI systémech.

RLHF: Spojení s LLM

Nejvýznamnější aplikací RL v moderní AI je Reinforcement Learning from Human Feedback (RLHF). Typický pipeline zahrnuje:

  1. Předtrénování: Trénování foundačního modelu na velkých datasetech
  2. Supervised Fine-tuning: Rafinace s lidsky označenými příklady
  3. Reward Modeling: Lidé hodnotí výstupy pro trénování odměnového modelu
  4. RL Fine-tuning: Použití PPO (Proximal Policy Optimization) k optimalizaci proti odměnovému modelu

John Schulman, spoluzakladatel OpenAI, vynalezl PPO—algoritmus, který pohání mnoho této práce. RLHF se stal standardním přístupem k tomu, aby AI systémy byly užitečné, neškodné a poctivé.

Omezení a kritiky

Přes své úspěchy má RL fundamentální omezení. Jak poznamenává Yejin Choi, posilovací učení poskytuje odměnové signály, ale neučí modely jak uvažovat. Model se učí, jaké výstupy dostávají vysoké odměny, aniž by nutně rozuměl proč.

Proto někteří výzkumníci tvrdí, že čisté RL přístupy mohou narazit na stropy—optimalizují výsledky bez rozvoje skutečného porozumění nebo schopnosti objevovat nová řešení.

Související čtení

Mentioned In

Video thumbnail

Yejin Choi

Reinforcement learning gives you a reward signal, but it doesn't teach the model how to reason about the world.