à®ªà®à¯à®à¯ à®à®©à¯à®© rollouts à®°à¯à®¯à®¿à®²à¯?

ஃப்ரீஸ்-டேக்

Jules David

திங்கள், 23 செப்டம்பர், 2024 ’அன்று’ முற்பகல் 8:37:25

ரே மற்றும் பைகேம் மூலம் தனிப்பயன் சூழல்களை வழங்குவதில் உள்ள சவால்கள்

ஃப்ரீஸ்-டேக் போன்ற சிக்கலான உருவகப்படுத்துதல்களுக்காக பைத்தானில் தனிப்பயன் சூழல்களை உருவாக்குவது, எதிர்பாராத சிக்கல்களை அடிக்கடி விளைவிக்கலாம், குறிப்பாக பல முகவர் பயிற்சிக்கான ரே போன்ற கட்டமைப்புகளுடன் இணைக்கும்போது. இந்தச் சூழ்நிலையில், முடக்கம்-குறிச்சொல் சூழ்நிலையைப் பின்பற்றுவதற்குப் பயனர் பைகேம் மூலம் உடற்பயிற்சி சூழலை உருவாக்கினார், ஆனால் பயிற்சியின் போது சூழலை வழங்க முயற்சிக்கும்போது சிக்கல்களை எதிர்கொள்கிறார்.

அடிப்படை பிரச்சினை என்னவென்றால், உருவகப்படுத்துதல் நோக்கம் கொண்டதாக இல்லை மற்றும் பல பைகேம் சாளரங்களை உருவாக்குகிறது, இது பயிற்சி செயல்முறையை சிக்கலாக்குகிறது. ஜிம் சூழலின் மற்ற அம்சங்கள் பல்வேறு முறைகளுடன் சரியாக வேலை செய்தாலும், ரேயின் மல்டி-ஏஜென்ட் ப்ராக்ஸிமல் பாலிசி ஆப்டிமைசேஷன் (MAPPO) அல்காரிதம் இந்த சிக்கல்களை அறிமுகப்படுத்துகிறது.

ரே என்பது விநியோகிக்கப்பட்ட பயிற்சிக்கான ஒரு அற்புதமான கட்டமைப்பாகும், ஆனால் பைகேம் போன்ற ரெண்டரிங் லைப்ரரிகளுடன் சிறப்பாகச் செயல்படுவது சாளர உருவாக்கம் மற்றும் மாற்றங்களை மாற்றுவதை கவனமாக நிர்வகிப்பது அவசியம். இந்தக் கவலைகளைத் தீர்க்காமல், பயிற்சி செயல்முறை நிறுத்தப்படலாம், இதன் விளைவாக டெவலப்பர்களுக்கு வெறுப்பூட்டும் முடிவுகள் ஏற்படும்.

பின்வரும் விவாதத்தில், இந்த ரெண்டரிங் சிரமங்களுக்கான சாத்தியமான காரணங்களைப் பார்ப்போம் மற்றும் தடையற்ற உருவகப்படுத்துதலை உறுதிசெய்ய குறிப்பிட்ட திருத்தங்களை வழங்குவோம். கூடுதலாக, ரேயில் MAPPO பயிற்சிக்காக PyGame டிஸ்ப்ளே செயல்படும் போது பல சாளர நிகழ்வுகளை உருவாக்குவதைத் தவிர்ப்பது எப்படி என்பதைப் பார்ப்போம்.

கட்டளை	பயன்பாட்டின் உதாரணம்
pygame.display.set_mode()	இந்தச் செயல்பாட்டைப் பயன்படுத்தி PyGame இன் ரெண்டரிங் சாளரம் உருவாக்கப்பட்டது. இந்தச் சூழ்நிலையில், நகல் சாளரங்களை உருவாக்குவதைத் தவிர்க்க, ரே ஒருமுறை மட்டுமே தொடங்கப்படுவதை உறுதிசெய்வது மிகவும் முக்கியமானது.
pygame.draw.circle()	சூழலில் உள்ள ஒவ்வொரு முகவரையும் ஒரு வட்டமாக மாற்றுகிறது. முடக்கம்-குறிச்சொல் விளையாட்டில் முகவர்களைக் காட்சிப்படுத்தவும், வண்ணத்தின் அடிப்படையில் அவர்களின் நிலையை வேறுபடுத்தவும் இது உதவுகிறது.
pygame.display.flip()	ரெண்டரிங் செய்யும் போது ஏற்பட்ட எந்த மாற்றங்களையும் பிரதிபலிக்கும் வகையில் காட்சியைப் புதுப்பிக்கிறது. ஒவ்வொரு காலகட்டத்திலும் சுற்றுச்சூழல் கிராபிக்ஸ் மாறும் என்பதற்கு இது மிகவும் முக்கியமானது.
ray.init()	ரே ஆரம்பத்தில் விநியோகிக்கப்பட்ட செயலாக்கத்திற்காக கட்டமைக்கப்படுகிறது. இந்தச் சூழ்நிலையில், உருவகப்படுத்துதலில் பல முகவர்களைத் திறமையாக நிர்வகிக்க இணையான ரோல்அவுட் தொழிலாளர்களை இது செயல்படுத்துகிறது.
register_env()	ரேயுடன் தனிப்பயன் ஜிம் அமைப்பைப் பதிவுசெய்து, பல முகவர் பயிற்சிக்குப் பயன்படுத்த அனுமதிக்கிறது. பயிற்சி வளையத்தில் இருக்கும் போது சுற்றுச்சூழலை ரே அடையாளம் காண்பதற்கு இது தேவைப்படுகிறது.
algo.train()	இது ரே கட்டமைப்பிற்குள் PPO அல்காரிதத்தைப் பயன்படுத்தி முகவர்களின் பயிற்சி கட்டத்தைத் தொடங்குகிறது. ஒவ்வொரு மறு செய்கையின் விளைவுகளும் முகவர் செயல்திறன் மற்றும் வெகுமதிகள் பற்றிய தகவலை வழங்குகின்றன.
rollouts()	பயிற்சியின் போது பயன்படுத்த வேண்டிய ரோல்அவுட் பணியாளர்களின் எண்ணிக்கையைக் குறிப்பிடுகிறது. இந்த சூழ்நிலையில், MAPPO பயிற்சிக்கான சூழல் சரியாக தொழிலாளர்களிடையே விநியோகிக்கப்படுவதை இது உறுதி செய்கிறது.
create_env_on_local_worker=True	ரேயில் உள்ள ஒரு முக்கியமான அளவுரு, ஒரு தொழிலாளிக்கு உள்நாட்டில் சுற்றுச்சூழலை உருவாக்குவதை உறுதிசெய்கிறது, இது ரெண்டரிங் சாளரத்தின் மீது கூடுதல் கட்டுப்பாட்டை அனுமதிக்கிறது மற்றும் சாளர நிகழ்வுகளின் எண்ணிக்கையைக் குறைக்கிறது.
config.build()	PPO உள்ளமைவை பயிற்சிக்குத் தயாராக உள்ள அல்காரிதம் பொருளாக மாற்றப் பயன்படுகிறது. இது சூழல், மாதிரி அமைப்பு மற்றும் ரோல்அவுட்கள் போன்ற அமைவு அளவுருக்களை ஒன்றாகக் கொண்டுவருகிறது.

பைகேம் மூலம் ரேயில் ரெண்டரிங் மற்றும் பயிற்சி செயல்முறையைப் புரிந்துகொள்வது

ரேயின் மல்டி-ஏஜென்ட் ப்ராக்ஸிமல் பாலிசி ஆப்டிமைசேஷன் (MAPPO) நுட்பத்தைப் பயன்படுத்தி ஒரு பெஸ்போக் ஜிம் சூழலை வழங்கும்போது எதிர்கொள்ளும் இரண்டு முதன்மை சவால்களை எதிர்கொள்ளும் வகையில் வழங்கப்படும் ஸ்கிரிப்டுகள். முதல் சிக்கல் பல பைகேம் சாளரங்களை உருவாக்குவதைத் தடுக்கிறது. எச்சரிக்கையான சாளர கட்டுமான தர்க்கத்தைப் பயன்படுத்தி ஒருமுறை மட்டுமே பைகேம் காட்சி துவக்கப்படுவதை உறுதி செய்வதன் மூலம் இது கவனிக்கப்படுகிறது. நாங்கள் பயன்படுத்துகிறோம் pygame.display.set_mode() பயிற்சியின் போது ஒரே ஒரு சாளரம் மட்டுமே உருவாக்கப்படுவதை உறுதி செய்வதற்காக டிஸ்பிளே துவக்கப்பட்டதா என்பதை சரிபார்ப்பதில் செயல்படும்.

இரண்டாவது முக்கிய திறன் விடாது முறை, இது ஒவ்வொரு காலகட்டத்திலும் சுற்றுச்சூழலின் தற்போதைய நிலையைக் காட்டுகிறது. சுற்றுச்சூழலில் உள்ள முகவர்கள் பயன்படுத்தி சித்தரிக்கப்படுகிறார்கள் pygame.draw.circle(), அவர்களின் நிலை மற்றும் வண்ணம் அவர்களின் நிலையைப் பொறுத்து தொடர்ந்து மாற்றியமைக்கப்படுகிறது. எந்தெந்த முகவர்கள் உறைந்துள்ளனர் மற்றும் முடக்கம்-குறிச்சொல் காட்சியில் இன்னும் செயலில் உள்ளவை என்பதைப் பார்க்க இது உங்களை அனுமதிக்கிறது. தி pygame.display.flip() முறையானது ஒவ்வொரு ரெண்டரிங் படிக்குப் பிறகும் காட்சியைப் புதுப்பித்து, சூழல் முகவர்களின் தற்போதைய நிலையைப் பிரதிபலிக்கிறது என்பதை உறுதிப்படுத்துகிறது.

ரேயில் தனிப்பயன் சூழலை எவ்வாறு இணைப்பது என்பதையும் ஸ்கிரிப்ட் காட்டுகிறது. தி env_creator செயல்பாடு ரே மூலம் சூழலைப் பதிவு செய்கிறது register_env() செயல்பாடு. ரேயின் பயிற்சி அல்காரிதம்கள் இப்போது தனிப்பயனாக்கப்பட்ட முடக்கம்-குறிச்சொல் சூழலைக் கண்டறிந்து பயன்படுத்தலாம். மேலும், ஸ்கிரிப்ட் பயன்படுத்துகிறது ray.init() ரேயை நிறுவுதல் மற்றும் பயிற்சி பல தொழிலாளர்களுக்கு விநியோகிக்கப்படுவதை உறுதி செய்தல். எவ்வாறாயினும், இந்த ஏற்பாட்டில், பல தொழிலாளர்கள் முழுவதும் சாளர ரெண்டரிங் தொடர்பான சிக்கலைக் குறைக்க, ஒரே ஒரு ரோல்அவுட் தொழிலாளி மட்டுமே பயன்படுத்தப்படுகிறார்.

இறுதியாக, பயிற்சி வளையம் பயன்படுத்துகிறது algo.train() செயல்பாடு, இது வழங்கப்பட்ட எண்ணிக்கையிலான அத்தியாயங்கள் மற்றும் நேர படிகளுக்கான பயிற்சி செயல்முறையை செயல்படுத்துகிறது. ஒவ்வொரு மறு செய்கையின் முடிவுகளும், சராசரி வெகுமதி மற்றும் மொத்த இழப்புகள் போன்ற அளவீடுகள் உட்பட, ஏஜெண்டுகளின் செயல்திறனில் முக்கியமான கருத்துக்களை வழங்குகின்றன. போன்ற அமைப்புகளை சரிசெய்தல் உருட்டல்_துண்டு_நீளம் மற்றும் ரயில்_தொகுதி_அளவு பயிற்சி செயல்முறையை மேம்படுத்த முடியும். இந்த ஸ்கிரிப்ட் மட்டு மற்றும் மாற்றியமைக்கக்கூடியது, எனவே இது Ray மற்றும் PyGame ஐ உள்ளடக்கிய பல முகவர் வலுவூட்டல் கற்றல் சிக்கல்களுக்குப் பயன்படுத்தப்படலாம்.

பல பைகேம் விண்டோஸ் சிக்கல்களைச் சரிசெய்தல் மற்றும் ரேயின் MAPPO அமைப்பில் ரெண்டரிங்கை மேம்படுத்துதல்.

அணுகுமுறை 1: பைதான், பைகேம் மற்றும் ரேயின் MAPPO உடன் சாளர நிர்வாகத்தில் கவனம் செலுத்துகிறது.

import pygame
from ray import init, shutdown
from ray.rllib.algorithms.ppo import PPOConfig
from ray.tune.registry import register_env
def render(self):
    if not hasattr(self, 'initialized') or not self.initialized:
        pygame.display.set_mode([1000, 1000])  # Prevent multiple windows
        self.initialized = True
    self.screen.fill((255, 255, 255))
    for agent in self.all_agents:
        color = agent.color if agent.status == 1 else (0, 255, 255)
        pygame.draw.circle(self.screen, color, (agent.x, agent.y), agent.size)
    pygame.display.flip()
def env_creator(config):
    return MyCustomEnv(screen=pygame.display.get_surface())  # Use existing display
register_env("Env_FTP", env_creator)
def train_and_evaluate(time_steps):
    init(ignore_reinit_error=True)
    config = PPOConfig().environment("Env_FTP").rollouts(num_rollout_workers=1)
    algo = config.build()
    for _ in range(episodes):
        results = algo.train()
    shutdown()

ரே மூலம் பைகேமில் ரெண்டரிங் மற்றும் பல முகவர்களைக் கையாளுதல்

அணுகுமுறை 2: சுற்றுச்சூழலை மட்டுப்படுத்துதல் மற்றும் பைதான் மற்றும் ரேயைப் பயன்படுத்தி ரெண்டர் லாஜிக்கைப் பிரித்தல்

import ray
from ray.rllib.algorithms.ppo import PPOConfig
import pygame
class EnvWithRendering:
    def __init__(self, screen, agents, adversaries, time_steps):
        self.screen = screen
        self.agents = agents
        self.adversaries = adversaries
        self.time_steps = time_steps
    def render(self):
        pygame.init()
        self.screen.fill((255, 255, 255))
        for agent in self.agents:
            color = agent.color if agent.status == 1 else (0, 255, 255)
            pygame.draw.circle(self.screen, color, (agent.x, agent.y), agent.size)
        pygame.display.update()
def env_creator(config):
    return EnvWithRendering(pygame.display.set_mode([1000, 1000]), 5, 2, 500)
ray.init()
register_env("Env_FTP", env_creator)
config = PPOConfig().rollouts(num_rollout_workers=1)
algo = config.build()
algo.train()

முறையான சுற்றுச்சூழல் ரெண்டரிங் மூலம் ரேயின் பல முகவர் பயிற்சியை மேம்படுத்துதல்

ரேயின் MAPPO ஐ ஒரு பெஸ்போக் சூழலில் திறம்பட ஒருங்கிணைக்கும் ஒரு முக்கியமான கூறு, ரெண்டரிங் மற்றும் ஏஜென்ட் நிர்வாகம் குறைபாடற்ற முறையில் இணைந்து செயல்படுவதை உறுதி செய்கிறது. முடக்கம்-குறிச்சொல் போன்ற பல முகவர் சூழ்நிலையில், பிழைத்திருத்தம் செய்வதற்கும் முகவர் செயல்பாட்டைக் கண்காணிப்பதற்கும் காட்சி உள்ளீடு முக்கியமானது. பயிற்சியின் போது PyGame சாளரங்கள் எவ்வாறு நிர்வகிக்கப்படுகின்றன என்பதுடன் ரெண்டரிங் செய்வதில் உள்ள முதன்மை சிரமம் அடிக்கடி இணைக்கப்பட்டுள்ளது. பல சாளரங்களைத் திறப்பதைத் தடுக்க, பைகேம் சாளரத்தின் தொடக்கத்தை நிபந்தனை சரிபார்ப்புகளுடன் நிர்வகிப்பது ஒரு சாத்தியமான முறையாகும். சுற்றுச்சூழலை சரியான முறையில் வழங்குவதற்கும், அதிக செலவுகள் இல்லாமல் இருப்பதற்கு இது உத்தரவாதம் அளிக்கிறது.

முகவர்களின் நடத்தைகள் உருவகப்படுத்துதலில் எவ்வாறு இணைக்கப்படுகின்றன என்பது மற்றொரு முக்கிய கருத்தாகும். ரேயின் வெளியீடுகள் வெவ்வேறு காலகட்டங்களில் இருந்து அனுபவங்கள் எவ்வாறு சேகரிக்கப்படுகின்றன மற்றும் முகவர்களுக்கு கல்வி கற்பிக்க பயன்படுத்தப்படுகின்றன. ஒவ்வொரு முகவரும் ஒரு செயலை எடுக்கும்போது, பிரதிநிதித்துவம் அவர்களின் புதிய நிலைகளையும் நிலைகளையும் பிரதிபலிக்க வேண்டும். பைகேம்ஸ் pygame.display.flip() கட்டளை இங்கே முக்கியமானது, ஏனெனில் இது நிகழ்நேரத்தில் திரையை மாற்றுகிறது, இது உருவகப்படுத்துதல் முழுவதும் அனைத்து முகவர்களின் இயக்கங்களையும் நிலைகளையும் கண்காணிக்க அனுமதிக்கிறது.

செயல்பாட்டின் மற்றொரு முக்கிய படியானது ரே மற்றும் பைகேம் இடையே இடைமுகத்தை மேம்படுத்துவதாகும். விநியோகிக்கப்பட்ட கணக்கீடுகளைக் கையாளும் ரேயின் திறன் சுவாரஸ்யமாக உள்ளது, ஆனால் காட்சி ரெண்டரிங் தேவைப்படும் சூழல்களில் அது சரியாக நிர்வகிக்கப்பட வேண்டும். ரேயைப் பயன்படுத்துதல் உள்ளூர்_தொழிலாளர் மீது_உருவாக்கம் வாதம், ரெண்டரிங் செய்யும் தொழிலாளிக்கு உள்நாட்டில் சூழல் கட்டமைக்கப்படுகிறது, பல தொழிலாளர்கள் திறந்த ஜன்னல்களுக்கு போட்டியிடுவதைத் தடுக்கிறது. விநியோகிக்கப்பட்ட கற்றல் மற்றும் துல்லியமான ரெண்டரிங் ஆகியவற்றின் கலவையானது ஒரு வெற்றிகரமான உருவகப்படுத்துதலில் விளைகிறது, இது ஒரே நேரத்தில் பல முகவர்களுக்கு கற்பிக்க எளிதாக விரிவாக்கப்படலாம்.

மல்டி ஏஜென்ட் சூழலில் ரே மற்றும் பைகேம் ரெண்டரிங் தொடர்பாக அடிக்கடி கேட்கப்படும் கேள்விகள்

பல பைகேம் விண்டோக்கள் திறப்பதை தடுப்பது எப்படி?
பல துவக்கங்களைத் தவிர்க்க, அழைப்பதற்கு முன் நிபந்தனை சரிபார்ப்பைப் பயன்படுத்தவும் pygame.display.set_mode().
பங்கு என்ன rollouts ரேயில்?
சுற்றுச்சூழலுடனான முகவர் தொடர்புகளிலிருந்து தரவை ரோல்அவுட்கள் கைப்பற்றி தக்கவைத்துக்கொள்கின்றன, இது பயிற்சியின் போது கொள்கையைப் புதுப்பிக்கப் பயன்படுத்தப்படுகிறது.
எப்படி செய்கிறது pygame.display.flip() வேலை?
இந்த கட்டளை PyGame சாளரத்தை முகவர்களின் நிலைகள் மற்றும் செயல்கள் உட்பட சுற்றுச்சூழலின் தற்போதைய நிலையுடன் புதுப்பிக்கிறது.
ரே ரெண்டரிங் மற்றும் பயிற்சி இரண்டையும் ஒரே நேரத்தில் கையாள முடியுமா?
ரே இரண்டையும் கையாள முடியும், ஆனால் create_env_on_local_worker சரியான ஒழுங்கமைப்பிற்கான சூழலை உள்நாட்டில் உருவாக்குகிறது.
ரே பயிற்சியில் பைகேம் சாளரத்தைக் கட்டுப்படுத்துவது ஏன் முக்கியம்?
சாளர துவக்கத்தின் மீது கட்டுப்பாடு இல்லாமல், பல சாளரங்கள் திறக்கலாம், செயல்திறன் கவலைகளை உருவாக்குகிறது மற்றும் முகவர் நடத்தையை கவனிக்க இயலாது.

ரே மற்றும் பைகேம் ரெண்டரிங் சிக்கல்களைத் தீர்ப்பது

இறுதியாக, பல முகவர் பைகேம் சூழலில் ரெண்டரிங் சிக்கல்களைச் சமாளிப்பது, ரேயுடன் கூடிய சாளர நிர்வாகத்தை மேம்படுத்துவது அவசியம். பைகேம் சாளரத்தின் பல நிகழ்வுகள் தேவையில்லாமல் ரெண்டரிங் செயல்முறை சீராக இயங்குவதை இது உறுதி செய்கிறது. சூழல் மற்றும் அளவுருக்களின் கவனமாக உள்ளமைவு தேவை.

ரேயின் ரோல் அவுட் தொழிலாளர்களை சரியாக உள்ளமைப்பதன் மூலமும், சூழல் எவ்வாறு உருவாக்கப்படுகிறது என்பதை மாற்றுவதன் மூலமும், திறமையான பயிற்சி மற்றும் முறையான ரெண்டரிங் ஆகிய இரண்டையும் நாங்கள் அடைகிறோம். இந்த தீர்வு உருவகப்படுத்துதல் வேகத்தை மேம்படுத்துகிறது, டெவலப்பர்கள் ரேயின் விநியோகிக்கப்பட்ட கற்றல் திறன்களைப் பயன்படுத்தி, முடக்கம்-குறிச்சொல் காட்சியை சிறப்பாகக் கண்காணிக்கவும் பிழைத்திருத்தவும் அனுமதிக்கிறது.

ரே மற்றும் பைகேம் ஒருங்கிணைப்புக்கான குறிப்புகள் மற்றும் ஆதாரங்கள்

பல முகவர் பயிற்சிக்கு Ray's RLlib ஐப் பயன்படுத்துவதற்கான விரிவான ஆவணங்களுக்கு: ரே RLlib ஆவணம்
PyGame இன் ரெண்டரிங் செயல்பாடுகள் மற்றும் பல சாளரங்களைக் கையாளுதல் பற்றிய தகவல்: பைகேம் காட்சி ஆவணம்
ரேயைப் பயன்படுத்தி விநியோகிக்கப்பட்ட பயிற்சிக்கான மேம்பட்ட PPO உள்ளமைவு: ரே PPO கட்டமைப்பு வழிகாட்டி
ஜிம் சூழல்களை ரேயுடன் ஒருங்கிணைப்பதற்கான மூல குறியீடு எடுத்துக்காட்டுகள்: ரே கிட்ஹப் களஞ்சியம்

ஃப்ரீஸ்-டேக் சிமுலேஷனில் ரேயின் தனிப்பயன் சுற்றுச்சூழல் ரெண்டரிங் சிக்கலைத் தீர்ப்பது