Key Components of Reinforcement Learning (RL)
Question & Answer (English)
Reinforcement Learning (RL) is a machine learning paradigm distinct from supervised or unsupervised learning. Which of the following are key components of an RL system?
- An Agent
- A Labeled Dataset
- An Environment
- A Reward Signal
Select the correct answer using the code given below:
- 1 and 3 only
- 2, 3 and 4 only
- 1, 2 and 4 only
- 1, 3 and 4 only — Correct Answer
Correct Answer Explanation
Reinforcement Learning (RL) is based on the interaction between three fundamental components. The Agent is the learner or decision-maker. It interacts with an Environment, which represents the world or context. For every action the agent takes, it receives feedback from the environment in the form of a Reward Signal (which can be positive or negative). The agent's goal is to learn a policy (a strategy) to maximize its cumulative reward. Therefore, an Agent, an Environment, and a Reward Signal are essential to any RL system.
Incorrect Options Analysis
- Labeled Dataset: This is a characteristic feature of supervised learning, where an algorithm learns from data that is already classified or labeled with the correct output. RL operates on a trial-and-error basis, learning from feedback rather than a pre-existing labeled dataset.
प्रश्न एवं उत्तर (हिंदी)
रीइन्फोर्समेंट लर्निंग (RL) एक मशीन लर्निंग प्रतिमान है जो सुपरवाइज्ड या अनसुपरवाइज्ड लर्निंग से अलग है। निम्नलिखित में से कौन एक RL प्रणाली के प्रमुख घटक हैं?
- एक एजेंट (Agent)
- एक लेबल्ड डेटासेट (Labeled Dataset)
- एक पर्यावरण (Environment)
- एक रिवॉर्ड सिग्नल (Reward Signal)
नीचे दिए गए कोड का उपयोग करके सही उत्तर चुनें:
- केवल 1 और 3
- केवल 2, 3 और 4
- केवल 1, 2 और 4
- केवल 1, 3 और 4 — सही उत्तर
सही उत्तर की व्याख्या
रीइन्फोर्समेंट लर्निंग (RL) तीन मौलिक घटकों के बीच की अंतःक्रिया पर आधारित है। एजेंट सीखने वाला या निर्णय लेने वाला होता है। यह एक पर्यावरण के साथ अंतःक्रिया करता है, जो दुनिया या संदर्भ का प्रतिनिधित्व करता है। एजेंट द्वारा की जाने वाली प्रत्येक क्रिया के लिए, उसे पर्यावरण से रिवॉर्ड सिग्नल (जो सकारात्मक या नकारात्मक हो सकता है) के रूप में प्रतिक्रिया मिलती है। एजेंट का लक्ष्य अपने संचयी इनाम को अधिकतम करने के लिए एक नीति (एक रणनीति) सीखना है। इसलिए, एक एजेंट, एक पर्यावरण और एक रिवॉर्ड सिग्नल किसी भी RL प्रणाली के लिए आवश्यक हैं।
गलत विकल्पों का विश्लेषण
- लेबल्ड डेटासेट: यह सुपरवाइज्ड लर्निंग की एक विशिष्ट विशेषता है, जहां एक एल्गोरिथ्म ऐसे डेटा से सीखता है जिसे पहले से ही सही आउटपुट के साथ वर्गीकृत या लेबल किया गया है। RL परीक्षण-और-त्रुटि के आधार पर काम करता है, जो पहले से मौजूद लेबल्ड डेटासेट के बजाय फीडबैक से सीखता है।
📚 About this Topic — Daily CA (UPSC)-19Sept2025
This multiple choice question is from Daily CA (UPSC)-19Sept2025, Daily CA- Sept2025. It has 4 options with a detailed explanation of the correct answer and is available in both English and Hindi (द्विभाषी). Practice more MCQs from Daily CA (UPSC)-19Sept2025 to strengthen your preparation.