ఇంతకు మునుపు ఎవ్వరూ చేయని విధంగా Q * బెర్ట్ వద్ద మోసం చేయడం AI నేర్చుకుంటుంది

క్లాసిక్ ఆర్కేడ్ గేమ్ క్యూ * బెర్ట్‌లో దోపిడీని కనుగొని దానితో పరిగెత్తిన తర్వాత ఒక AI ఉత్తమ మానవత్వంతో మోసం చేయగలిగింది.

AI యొక్క మునుపటి పునరావృత్తులు Q * బెర్ట్‌ను సరిగ్గా ప్లే చేస్తాయి, ఆట ఎలా పనిచేస్తుందో దాని నేర్చుకోవడంలో ఏదో ఒక సమయంలో, ఇది పిచ్చి పాయింట్లను పెంచడానికి అనుమతించే దోపిడీని కనుగొంటుంది. సహజంగానే, ఏదైనా స్కోరు-వేట ఆటగాడు చేసినట్లుగా, ఇది ప్రక్రియను పునరావృతం చేస్తుంది, తద్వారా ఇది దాని స్కోర్‌ను సాధ్యమైనంత ప్రభావవంతంగా పెంచుతుంది.

దిగువ వీడియోలో AI ప్లాట్‌ఫారమ్‌ల చుట్టూ పనిచేయడాన్ని మీరు చూడవచ్చు. మొదట, ఇది ప్లాట్‌ఫారమ్‌ల మధ్య లక్ష్యం లేకుండా దూకినట్లు కనిపిస్తోంది. తరువాతి రౌండ్కు ఆట పురోగతిని చూడటానికి బదులుగా, Q * బెర్ట్ దాని ప్లాట్‌ఫారమ్‌లన్నీ ఫ్లాష్ అవ్వడం ప్రారంభమయ్యే లూప్‌లో చిక్కుకుంటాయి - ఇక్కడే AI ఆపై భారీ పాయింట్లను సాధించే స్కోరు-ఉన్మాదంతో వెళ్ళవచ్చు.

తదుపరి చదవండి: అత్యంత వివాదాస్పదమైన గేమ్ రికార్డులలో ఒకటి చివరకు ఖండించబడింది

కోరికపై చరిత్రను ఎలా క్లియర్ చేయాలి

Q * బెర్ట్ యుద్ధాన్ని AI ఎలా గెలుచుకుంది

టైటిల్ కోసం ఆల్-టైమ్ రికార్డ్‌ను పగులగొట్టి, AI దాని పరిణామ వ్యూహ అల్గోరిథం ప్రోగ్రామింగ్‌కు అధిక స్కోరును సాధించింది. పరిణామ వ్యూహాలు (ES) సాంప్రదాయిక AI ఉపయోగించే సాధారణ ఉపబల అభ్యాసం (RL) నుండి భిన్నంగా ఉంటుంది, ఎందుకంటే దాని తరాల అభ్యాసం కారణంగా ఇది మరింత స్కేలబుల్‌గా కనిపిస్తుంది.

ప్రతి అభ్యాస లూప్‌ను ఒక తరం అని సూచిస్తారు మరియు ఒక సెట్ షరతు నెరవేరే వరకు ఇది తన పనిని కొనసాగిస్తుంది (ఈ సందర్భంలో, అధిక స్కోరు). ప్రతి తరువాతి తరంతో, AI మునుపటి తరం యొక్క జ్ఞానాన్ని గ్రహిస్తుంది మరియు అందువల్ల అదే లక్ష్యాన్ని సాధించడం మరియు దానిని అధిగమించడం మంచిది. కొనసాగించండి మరియు మీరు దాని పనిలో పూర్తిగా riv హించని AI తో ముగుస్తుంది. Q * బెర్ట్ స్కోర్‌తో ఇక్కడ అదే జరిగింది.

లో వివరించబడింది కాగితము , జర్మనీలోని ఫ్రీబర్గ్ విశ్వవిద్యాలయంలోని పరిశోధకులు గత వారం ప్రచురించారు, బగ్ తెలిసిన పరిమాణం కాదని తెలుస్తుంది. వాస్తవానికి, బగ్‌ను కనుగొనడంలో వారు పెద్దగా ఆశ్చర్యపోనప్పటికీ, AI అప్పుడు ఎలా ముందుకు సాగిందో మరియు దాని స్కోరింగ్ సామర్థ్యాన్ని పెంచడానికి ఆడిన ప్రతిసారీ దాన్ని ఎలా ఉపయోగించుకోవాలో నేర్చుకోవడం ఆసక్తికరంగా ఉంటుంది.

తదుపరి చదవండి: ఈ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ సూపర్ మారియో బ్రోస్‌ను నేర్చుకోవడం నేర్చుకుంది

బగ్‌ను కనుగొనడానికి, ఏజెంట్ మొదట మొదటి స్థాయిని పూర్తి చేయడం నేర్చుకోవాలి - ఇది ఒకేసారి చేయలేదు కాని చాలా చిన్న మెరుగుదలలను ఉపయోగించి, పరిశోధకులు వివరించారు రిజిస్టర్ . శిక్షణలో ఏదో ఒక సమయంలో సంతానం పరిష్కారాలలో ఒకటి బగ్‌ను ఎదుర్కొంది మరియు దాని తోబుట్టువులతో పోలిస్తే చాలా మంచి స్కోరును పొందిందని మేము అనుమానిస్తున్నాము, ఇది నవీకరణకు దాని సహకారాన్ని పెంచింది - దాని బరువు బరువు సగటులో అత్యధికం. ఇది నెమ్మదిగా ద్రావణాన్ని అంతరిక్షంలోకి తరలించింది, ఇక్కడ ఎక్కువ మంది సంతానాలు ఒకే బగ్‌ను ఎదుర్కోవడం ప్రారంభించాయి.

బగ్ కనిపించే ఖచ్చితమైన పరిస్థితులు మాకు తెలియదు; ఏజెంట్ సబ్‌ప్టిమల్ అనిపించే నమూనాను అనుసరిస్తేనే అది కనిపిస్తుంది, [ఉదాహరణకు ఏజెంట్ సమయం వృధా చేసినప్పుడు లేదా జీవితాన్ని కోల్పోయినప్పుడు]. అదే జరిగితే, ప్రామాణిక RL బగ్‌ను కనుగొనడం చాలా కష్టం: మీరు పెరుగుతున్న రివార్డులను ఉపయోగిస్తే, కొంతకాలం ఎక్కువ బహుమతులు ఇవ్వని వ్యూహాలను నేర్చుకోవడం కంటే, కొంత బహుమతిని త్వరగా ఇచ్చే వ్యూహాలను మీరు నేర్చుకుంటారు మరియు అకస్మాత్తుగా పెద్దది.

సంబంధిత చూడండి డ్రాగ్స్టర్ ఛాంపియన్ టాడ్ రోజర్స్ 35 సంవత్సరాల తరువాత తన కిరీటాన్ని కోల్పోయాడు ఈ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ సూపర్ మారియో బ్రోస్ 1-2 ను 17 రోజులుగా నేర్చుకోవడం నేర్చుకుంటుంది ఈ AI ను చూడండి GTA V ఆన్ ట్విచ్‌లో డ్రైవ్ చేయడం నేర్చుకోండి

అయినప్పటికీ, బోట్ యొక్క అద్భుతమైన ఫలితాలు ఉన్నప్పటికీ, పరిశోధకులు RL పై ఛాంపియన్ ES నేర్చుకోవటానికి ఇది ఒక సందర్భం అని చెప్పడం లేదు. వాస్తవానికి, రెండు వ్యవస్థలు తమ సొంత సమస్యలను కలిగి ఉన్నాయి మరియు రెండింటి కలయిక ఎక్కువగా ముందుకు సాగే ఉత్తమ ఎంపికగా కనిపిస్తుంది.

ఇతర అటారీ ఆటలలో అదే ES పద్ధతి అదే సానుకూల ఫలితాల దగ్గర ఎక్కడా తీసుకురాలేదు. మరోవైపు, ప్రపంచంలోని ఉత్తమ GO ప్లేయర్‌ను ఓడించడంతో సహా, ఎడమ, కుడి మరియు మధ్య రికార్డులను పగులగొట్టడానికి RL బాధ్యత వహిస్తుంది. ES కి ఇంకా విషయాలలో దాని స్వంత స్థానం ఉంది, మరియు వాస్తవానికి ఎన్విడియా దాని యొక్క AI శిక్షణను ఎలా చేస్తుంది, ఎందుకంటే దీనికి ఎక్కువ గణన శక్తి అవసరం, కానీ ఎక్కువ కాలం పాటు మంచి ఫలితాలను సాధిస్తుంది.

AI అభివృద్ధికి ఏ మార్గం భవిష్యత్ అవుతుందనే దానితో సంబంధం లేకుండా, కనీసం ఈ బోట్ వ్యవస్థను మోసం చేయడం అంత చెడ్డది కాదు ఇప్పుడు అవమానకరమైన వీడియో గేమ్ ప్రపంచ ఛాంపియన్ .