మహ్మద్ టెర్రీ జాక్
రోబోట్ యొక్క గుండెలో ఒక విధానం ఉంటుంది, ఇది ఏ సందర్భంలోనైనా ఏమి చేయాలో (అంటే ఏ చర్య తీసుకోవాలో) తెలియజేస్తుంది. ఇది సాధారణ నియమాల సమాహారం లేదా సంక్లిష్టమైన గణిత విధి కావచ్చు. కానీ నియమాలు లేదా గణిత ఫంక్షన్ ఎలా ఉండాలో మీకు ఎలా తెలుసు? అదృష్టవశాత్తూ, ఫంక్షన్ను అంచనా వేయడానికి (ఉదా. కెర్నల్ మెషీన్లు, డీప్ లెర్నింగ్, మొదలైనవి) లేదా ఈ నియమాలను స్వయంచాలకంగా ఊహించడానికి (ఉదా. ప్రేరక లాజిక్ ప్రోగ్రామింగ్, యాదృచ్ఛిక అడవులు మొదలైనవి) మెషిన్ లెర్నింగ్ అల్గారిథమ్లు ఉన్నాయి. అయినప్పటికీ, పర్యవేక్షించబడే అభ్యాస అల్గారిథమ్లకు చాలా శిక్షణ డేటా అవసరం, అది అందుబాటులో ఉండకపోవచ్చు. ఎవల్యూషనరీ మెథడ్స్ (ఉదా జెనెటిక్ అల్గారిథమ్లు) మరియు ఇతర ఆప్టిమైజేషన్ అల్గారిథమ్లకు పాలసీ-స్పేస్ ద్వారా మూల్యాంకనం చేయడానికి మరియు శోధించడానికి మరియు సరైన నియమాలు లేదా పనితీరును కనుగొనడానికి ఎటువంటి శిక్షణ డేటా అవసరం లేదు. ప్రత్యామ్నాయంగా, రీన్ఫోర్స్మెంట్ లెర్నింగ్లో చేసినట్లుగా పాలసీని నేరుగా శోధనకు (స్టేట్/యాక్షన్-స్టేట్ స్పేస్ ద్వారా) సమం చేయడం ద్వారా, నేర్చుకున్న మూల్యాంకన ఫంక్షన్ (ఉదా V లేదా Q-ఫంక్షన్) ఉపయోగించి తదుపరి ఉత్తమ చర్య కనుగొనవచ్చు.