ÙØªØ¹Ø¯Ø¯ Ø´Ø±ÙØ¹Ø§ØªÙÚº Ø³Û Ø¨ÚÙÛ Ú©Û ÙÛÛØ Ú©Ø§Ù Ú©Ø±ÙÛ Ø³Û Ù¾ÛÙÛ ÙØ´Ø±ÙØ· ÚÛÚ© Ú©Ø§ Ø§Ø³ØªØ¹ÙØ§Ù Ú©Ø±ÛÚºÛ pygame.display.set_mode().

Ú©Ø§ Ú©Ø±Ø¯Ø§Ø± Ú©ÛØ§ ÛÛÛ rollouts Ø±Û ÙÛÚºØ

Ú©ÛØ³Û Ú©Ø±ØªØ§ ÛÛ pygame.display.flip() Ú©Ø§Ù

Ø±Û Ø¯ÙÙÙÚº Ú©Ù Ø³ÙØ¨Ú¾Ø§Ù Ø³Ú©ØªØ§ ÛÛØ ÙÛÚ©Ù create_env_on_local_worker ÙÙØ§Ø³Ø¨ Ø±ÛÙÚØ±ÙÚ¯ Ú©Û ÙÛÛ ÙÙØ§ÙÛ Ø·ÙØ± Ù¾Ø± ÙØ§ØÙÙ Ù¾ÛØ¯Ø§ Ú©Ø±ØªØ§ ÛÛÛ

Ø±Û Ù¹Ø±ÛÙÙÚ¯ ÙÛÚº PyGame ÙÙÚÙ Ú©Ù Ú©ÙÙ¹Ø±ÙÙ Ú©Ø±ÙØ§ Ú©ÛÙÚº Ø¶Ø±ÙØ±Û ÛÛØ

فریز ٹیگ سمولیشن میں رے کے کسٹم

Jules David

پیر، 23 ستمبر، 2024 8:45:36 AM

Ray اور PyGame کے ساتھ اپنی مرضی کے مطابق ماحول فراہم کرنے میں چیلنجز

فریز ٹیگ جیسے پیچیدہ سمولیشنز کے لیے ازگر میں اپنی مرضی کے مطابق ماحول بنانا اکثر غیر متوقع مسائل کا باعث بن سکتا ہے، خاص طور پر جب ملٹی ایجنٹ ٹریننگ کے لیے رے جیسے فریم ورک کے ساتھ ملایا جائے۔ اس منظر نامے میں، صارف نے PyGame کے ساتھ جم کا ماحول بنایا تاکہ منجمد ٹیگ کی صورت حال کی نقل کی جا سکے، لیکن تربیت کے دوران ماحول فراہم کرنے کی کوشش کرتے ہوئے مسائل کا سامنا کرنا پڑتا ہے۔

بنیادی مسئلہ یہ ہے کہ تخروپن مطلوبہ طور پر پیش نہیں کرتا ہے اور بہت سے PyGame ونڈوز تیار کرتا ہے، تربیت کے عمل کو پیچیدہ بناتا ہے۔ اگرچہ جم کے ماحول کے دیگر پہلو مختلف طریقوں کے ساتھ مناسب طریقے سے کام کرتے ہیں، رے کا ملٹی ایجنٹ پروکسیمل پالیسی آپٹیمائزیشن (MAPPO) الگورتھم ان مسائل کو متعارف کرواتا دکھائی دیتا ہے۔

رے تقسیم شدہ تربیت کے لیے ایک شاندار فریم ورک ہے، لیکن PyGame جیسی رینڈرنگ لائبریریوں کے ساتھ اسے اچھی طرح سے کام کرنے کے لیے ونڈو جنریشن اور رینڈرنگ تبدیلیوں کے محتاط انتظام کی ضرورت ہے۔ ان خدشات کو حل کیے بغیر، تربیت کا عمل روکا جا سکتا ہے، جس کے نتیجے میں ڈویلپرز کے لیے مایوس کن نتائج برآمد ہوں گے۔

درج ذیل بحث میں، ہم رینڈرنگ کی ان مشکلات کی ممکنہ وجوہات پر غور کریں گے اور ہموار تخروپن کو یقینی بنانے کے لیے مخصوص اصلاحات فراہم کریں گے۔ اس کے علاوہ، ہم دیکھیں گے کہ رے میں MAPPO ٹریننگ کے لیے PyGame ڈسپلے کو کام کرتے ہوئے ونڈو کے بہت سے نمونے بنانے سے کیسے بچنا ہے۔

حکم	استعمال کی مثال
pygame.display.set_mode()	PyGame کی رینڈرنگ ونڈو اس فنکشن کا استعمال کرتے ہوئے بنائی گئی ہے۔ اس منظر نامے میں، یہ یقینی بنانا ضروری ہے کہ ڈپلیکیٹ ونڈوز بنانے سے بچنے کے لیے رے صرف ایک بار شروع کیا جائے۔
pygame.draw.circle()	ماحول میں ہر ایجنٹ کو ایک دائرہ بناتا ہے۔ یہ فریز ٹیگ گیم میں ایجنٹوں کو دیکھنے میں مدد کرتا ہے، رنگ کی بنیاد پر ان کی حیثیت کو الگ کرتا ہے۔
pygame.display.flip()	رینڈرنگ کے دوران ہونے والی کسی بھی تبدیلی کو ظاہر کرنے کے لیے ڈسپلے کو اپ ڈیٹ کرتا ہے۔ یہ اس بات کی ضمانت دینے کے لیے بہت اہم ہے کہ ماحول کے گرافکس ہر وقت کے ساتھ بدلتے رہتے ہیں۔
ray.init()	رے کو ابتدائی طور پر تقسیم شدہ پروسیسنگ کے لیے ترتیب دیا گیا ہے۔ اس صورت حال میں، یہ متوازی رول آؤٹ کارکنوں کو قابل بناتا ہے کہ وہ تخروپن میں کئی ایجنٹوں کا مؤثر طریقے سے انتظام کر سکیں۔
register_env()	اپنی مرضی کے مطابق جم سیٹنگ کو رے کے ساتھ رجسٹر کرتا ہے، جس سے اسے ملٹی ایجنٹ ٹریننگ کے لیے استعمال کیا جا سکتا ہے۔ ٹریننگ لوپ میں رہتے ہوئے رے ماحول کی شناخت کی ضمانت دینے کے لیے ضروری ہے۔
algo.train()	یہ رے فریم ورک کے اندر PPO الگورتھم کا استعمال کرتے ہوئے ایجنٹوں کی تربیت کا مرحلہ شروع کرتا ہے۔ ہر تکرار کے نتائج ایجنٹ کی کارکردگی اور انعامات کے بارے میں معلومات فراہم کرتے ہیں۔
rollouts()	تربیت کے دوران استعمال کرنے کے لیے رول آؤٹ اہلکاروں کی تعداد کی وضاحت کرتا ہے۔ اس صورت حال میں، یہ یقینی بناتا ہے کہ MAPPO کی تربیت کے لیے کارکنوں میں ماحول کو مناسب طریقے سے تقسیم کیا جائے۔
create_env_on_local_worker=True	رے میں ایک اہم پیرامیٹر جو اس بات کو یقینی بناتا ہے کہ ماحول ایک ہی کارکن کے لیے مقامی طور پر تیار کیا گیا ہے، جس سے رینڈرنگ ونڈو پر زیادہ کنٹرول اور ونڈو مثالوں کی تعداد کو کم کیا جا سکتا ہے۔
config.build()	PPO کنفیگریشن کو تربیت کے لیے تیار الگورتھم آبجیکٹ میں تبدیل کرنے کے لیے استعمال کیا جاتا ہے۔ یہ سیٹ اپ پیرامیٹرز جیسے ماحول، ماڈل کی ساخت، اور رول آؤٹ کو اکٹھا کرتا ہے۔

PyGame کے ساتھ رے میں رینڈرنگ اور ٹریننگ کے عمل کو سمجھنا

پیش کردہ اسکرپٹس کا مقصد رے کی ملٹی ایجنٹ پروکسیمل پالیسی آپٹیمائزیشن (MAPPO) تکنیک کا استعمال کرتے ہوئے بیسپوک جم ماحول پیش کرتے وقت درپیش دو بنیادی چیلنجوں کو حل کرنا ہے۔ پہلا مسئلہ متعدد PyGame ونڈوز کی تخلیق کو روکتا ہے۔ اس بات کو یقینی بنا کر حل کیا جاتا ہے کہ PyGame ڈسپلے کو صرف ایک بار محتاط ونڈو تعمیراتی منطق کا استعمال کرتے ہوئے شروع کیا گیا ہے۔ ہم استعمال کرتے ہیں pygame.display.set_mode() اس بات کو یقینی بنانے کے لیے کہ آیا ٹریننگ کے دوران صرف ایک ونڈو بنائی گئی ہے اس بات کی جانچ پڑتال کے اندر فنکشن۔

دوسری کلیدی صلاحیت ہے رینڈر طریقہ، جو ہر ٹائم سٹیپ میں ماحول کی موجودہ حالت کو ظاہر کرتا ہے۔ ماحول میں ایجنٹوں کو استعمال کرتے ہوئے دکھایا گیا ہے۔ pygame.draw.circle(), ان کی پوزیشن اور رنگ مسلسل ان کی حالت پر منحصر نظر ثانی کے ساتھ. یہ آپ کو یہ دیکھنے کی اجازت دیتا ہے کہ کون سے ایجنٹ منجمد ہیں اور کون سے اب بھی منجمد ٹیگ کے منظر نامے میں فعال ہیں۔ دی pygame.display.flip() طریقہ کار رینڈرنگ کے ہر قدم کے بعد ڈسپلے کو ریفریش کرتا ہے، اس بات کو یقینی بناتا ہے کہ ماحول ایجنٹوں کی موجودہ حیثیت کی نمائندگی کرتا ہے۔

اسکرپٹ یہ بھی دکھاتا ہے کہ کس طرح اپنی مرضی کے ماحول کو رے میں شامل کیا جائے۔ دی env_creator فنکشن ماحول کو رے کے ذریعے رجسٹر کرتا ہے۔ رجسٹر_env() فنکشن رے کے تربیتی الگورتھم اب اپنی مرضی کے مطابق فریز ٹیگ ماحول کا پتہ لگا سکتے ہیں اور استعمال کر سکتے ہیں۔ مزید برآں، اسکرپٹ استعمال کرتا ہے۔ ray.init() رے کو قائم کرنے اور اس بات کو یقینی بنانے کے لیے کہ تربیت کو کئی کارکنوں میں تقسیم کیا جا سکے۔ تاہم، اس انتظام میں متعدد کارکنوں میں ونڈو رینڈرنگ سے وابستہ پیچیدگی کو کم کرنے کے لیے صرف ایک رول آؤٹ ورکر کا استعمال کیا جاتا ہے۔

آخر میں، تربیتی لوپ کا استعمال کرتا ہے algo.train() فنکشن، جو اقساط کی فراہم کردہ تعداد اور وقت کے مراحل کے لیے تربیتی طریقہ کار کو انجام دیتا ہے۔ ہر تکرار کے نتائج ایجنٹوں کی کارکردگی پر اہم تاثرات دیتے ہیں، بشمول اوسط انعام اور کل نقصانات۔ ترتیبات کو ایڈجسٹ کرنا جیسے rollout_fragment_length اور ٹرین_بیچ_سائز تربیت کے عمل کو بہتر بنا سکتے ہیں۔ یہ اسکرپٹ ماڈیولر اور موافقت پذیر ہے، اس لیے اسے Ray اور PyGame میں شامل متعدد ملٹی ایجنٹ کمک سیکھنے کے مسائل کے لیے استعمال کیا جا سکتا ہے۔

ایک سے زیادہ PyGame ونڈوز کے مسائل کو ٹھیک کرنا اور رے کے MAPPO سیٹ اپ میں رینڈرنگ کو بہتر بنانا۔

نقطہ نظر 1: Python، PyGame اور Ray's MAPPO کے ساتھ ونڈو مینجمنٹ پر توجہ مرکوز کرتا ہے۔

import pygame
from ray import init, shutdown
from ray.rllib.algorithms.ppo import PPOConfig
from ray.tune.registry import register_env
def render(self):
    if not hasattr(self, 'initialized') or not self.initialized:
        pygame.display.set_mode([1000, 1000])  # Prevent multiple windows
        self.initialized = True
    self.screen.fill((255, 255, 255))
    for agent in self.all_agents:
        color = agent.color if agent.status == 1 else (0, 255, 255)
        pygame.draw.circle(self.screen, color, (agent.x, agent.y), agent.size)
    pygame.display.flip()
def env_creator(config):
    return MyCustomEnv(screen=pygame.display.get_surface())  # Use existing display
register_env("Env_FTP", env_creator)
def train_and_evaluate(time_steps):
    init(ignore_reinit_error=True)
    config = PPOConfig().environment("Env_FTP").rollouts(num_rollout_workers=1)
    algo = config.build()
    for _ in range(episodes):
        results = algo.train()
    shutdown()

رے کے ساتھ PyGame میں رینڈرنگ کو بہتر بنانا اور ایک سے زیادہ ایجنٹوں کو ہینڈل کرنا

نقطہ نظر 2: ماحول کو ماڈیولرائز کرنا اور ازگر اور رے کا استعمال کرتے ہوئے رینڈر منطق کو الگ کرنا

import ray
from ray.rllib.algorithms.ppo import PPOConfig
import pygame
class EnvWithRendering:
    def __init__(self, screen, agents, adversaries, time_steps):
        self.screen = screen
        self.agents = agents
        self.adversaries = adversaries
        self.time_steps = time_steps
    def render(self):
        pygame.init()
        self.screen.fill((255, 255, 255))
        for agent in self.agents:
            color = agent.color if agent.status == 1 else (0, 255, 255)
            pygame.draw.circle(self.screen, color, (agent.x, agent.y), agent.size)
        pygame.display.update()
def env_creator(config):
    return EnvWithRendering(pygame.display.set_mode([1000, 1000]), 5, 2, 500)
ray.init()
register_env("Env_FTP", env_creator)
config = PPOConfig().rollouts(num_rollout_workers=1)
algo = config.build()
algo.train()

مناسب ماحول کی پیش کش کے ساتھ رے کی ملٹی ایجنٹ ٹریننگ کو بڑھانا

Bespoke ماحول میں رے کے ایم اے پی پی او کو مؤثر طریقے سے مربوط کرنے کا ایک اہم جز اس بات کو یقینی بنا رہا ہے کہ رینڈرنگ اور ایجنٹ مینجمنٹ بے عیب طریقے سے مل کر کام کریں۔ فریز ٹیگ جیسے ملٹی ایجنٹ کے منظر نامے میں، ایجنٹ کی سرگرمی کو ڈیبگ کرنے اور مشاہدہ کرنے کے لیے بصری ان پٹ اہم ہے۔ رینڈرنگ کے ساتھ بنیادی دشواری اکثر اس بات سے منسلک ہوتی ہے کہ تربیت کے دوران PyGame ونڈوز کا انتظام کیسے کیا جاتا ہے۔ متعدد ونڈو کھولنے سے روکنے کے لیے، ایک قابل عمل طریقہ یہ ہے کہ مشروط چیک کے ساتھ PyGame ونڈو کے آغاز کا انتظام کیا جائے۔ یہ اس بات کی ضمانت دیتا ہے کہ ماحول مناسب طریقے سے اور ضرورت سے زیادہ اوور ہیڈ کے بغیر پیش کرتا ہے۔

ایک اور اہم غور یہ ہے کہ ایجنٹوں کے طرز عمل کو تخروپن میں کیسے شامل کیا جاتا ہے۔ رے کے رول آؤٹ اس بات کا حکم دیتے ہیں کہ کس طرح مختلف اوقات کے تجربات کو جمع کیا جاتا ہے اور ایجنٹوں کو تعلیم دینے کے لیے استعمال کیا جاتا ہے۔ جب ہر ایجنٹ کوئی کارروائی کرتا ہے، تو نمائندگی کو ان کے نئے عہدوں اور ریاستوں کی عکاسی کرنی چاہیے۔ پی گیمز pygame.display.flip() کمانڈ یہاں بہت ضروری ہے کیونکہ یہ اصل وقت میں اسکرین کو تبدیل کرتا ہے، جس سے ہم تمام ایجنٹوں کی نقل و حرکت کے دوران ان کی حرکات و سکنات کو ٹریک کرسکتے ہیں۔

اس عمل میں ایک اور اہم قدم Ray اور PyGame کے درمیان انٹرفیس کو بہتر بنانا ہے۔ تقسیم شدہ حسابات کو ہینڈل کرنے کے لیے رے کی صلاحیت متاثر کن ہے، لیکن اس کا صحیح طریقے سے انتظام کیا جانا چاہیے جب اس کا استعمال ایسے سیاق و سباق میں کیا جائے جن کو بصری رینڈرنگ کی ضرورت ہو۔ رے کا استعمال کرتے ہوئے بنائیں_env_on_local_worker دلیل، ماحول مقامی طور پر رینڈرنگ کرنے والے کارکن پر بنایا گیا ہے، جس سے کئی کارکنوں کو کھلی کھڑکیوں کا مقابلہ کرنے سے روکا جاتا ہے۔ تقسیم شدہ سیکھنے اور درست رینڈرنگ کے اس امتزاج کا نتیجہ ایک کامیاب تخروپن میں ہوتا ہے جسے ایک ساتھ کئی ایجنٹوں کو سکھانے کے لیے آسانی سے بڑھایا جا سکتا ہے۔

ملٹی ایجنٹ ماحول میں رے اور پائی گیم رینڈرنگ کے بارے میں اکثر پوچھے گئے سوالات

میں متعدد PyGame ونڈوز کو کھولنے سے کیسے روک سکتا ہوں؟
متعدد شروعاتوں سے بچنے کے لیے، کال کرنے سے پہلے مشروط چیک کا استعمال کریں۔ pygame.display.set_mode().
کا کردار کیا ہے۔ rollouts رے میں؟
رول آؤٹس ماحول کے ساتھ ایجنٹ کے تعامل سے ڈیٹا حاصل کرتے ہیں اور اسے برقرار رکھتے ہیں، جسے بعد میں تربیت کے دوران پالیسی کو اپ ڈیٹ کرنے کے لیے استعمال کیا جاتا ہے۔
کیسے کرتا ہے pygame.display.flip() کام
یہ کمانڈ PyGame ونڈو کو ماحول کی موجودہ حالت کے ساتھ ریفریش کرتی ہے، بشمول ایجنٹوں کی پوزیشن اور اعمال۔
کیا رے رینڈرنگ اور ٹریننگ دونوں کو بیک وقت سنبھال سکتا ہے؟
رے دونوں کو سنبھال سکتا ہے، لیکن create_env_on_local_worker مناسب رینڈرنگ کے لیے مقامی طور پر ماحول پیدا کرتا ہے۔
رے ٹریننگ میں PyGame ونڈو کو کنٹرول کرنا کیوں ضروری ہے؟
ونڈو کے آغاز پر کنٹرول کے بغیر، متعدد ونڈوز کھل سکتی ہیں، جس سے کارکردگی کے خدشات پیدا ہوتے ہیں اور ایجنٹ کے رویے کا مشاہدہ کرنا ناممکن ہو جاتا ہے۔

رے اور پائگیم رینڈرنگ کے مسائل کو حل کرنا

آخر میں، رے کے ساتھ ملٹی ایجنٹ پی گیم سیاق و سباق میں رینڈرنگ کے مسائل سے نمٹنے کے لیے ونڈو مینجمنٹ کو بہتر بنانے کی ضرورت ہے۔ یہ یقینی بناتا ہے کہ پی گیم ونڈو کی متعدد مثالوں کی ضرورت کے بغیر رینڈرنگ کا عمل آسانی سے چلتا ہے۔ ماحول اور پیرامیٹرز کی محتاط ترتیب کی ضرورت ہے۔

رے کے رول آؤٹ ورکرز کو مناسب طریقے سے ترتیب دے کر اور ماحول پیدا کرنے کے طریقے کو تبدیل کر کے، ہم موثر تربیت اور مناسب رینڈرنگ دونوں حاصل کرتے ہیں۔ یہ حل ڈیولپرز کو رے کی تقسیم شدہ سیکھنے کی صلاحیتوں سے فائدہ اٹھاتے ہوئے فریز ٹیگ کے منظر نامے کا بہتر مشاہدہ اور ڈیبگ کرنے کی اجازت دے کر نقلی رفتار کو بہتر بناتا ہے۔

رے اور پی گیم انٹیگریشن کے لیے حوالہ جات اور وسائل

ملٹی ایجنٹ ٹریننگ کے لیے Ray's RLlib استعمال کرنے کے بارے میں تفصیلی دستاویزات کے لیے: رے RLlib دستاویزات
PyGame کے رینڈرنگ فنکشنز اور ایک سے زیادہ ونڈوز کو سنبھالنے کے بارے میں معلومات: PyGame ڈسپلے دستاویزی
رے کا استعمال کرتے ہوئے تقسیم شدہ تربیت کے لیے اعلی درجے کی پی پی او ترتیب: رے پی پی او کنفیگریشن گائیڈ
رے کے ساتھ جم ماحول کو مربوط کرنے کے لیے ماخذ کوڈ کی مثالیں: رے گٹ ہب ریپوزٹری

فریز ٹیگ سمولیشن میں رے کے کسٹم انوائرمنٹ رینڈرنگ ایشو کو حل کرنا