Արհեստական բանականության համակարգերը սովորում են ստել և խաբել, պարզել են գիտնականները
Արհեստական բանականության մոդելներն ավելի ու ավելի են կատարելագործվում դիտավորյալ ստելու մեջ:
Վերջերս կատարված երկու ուսումնասիրություններ ՝ մեկը, որը հրապարակվել է այս շաբաթ PNAS ամսագրում, և մյուսը, որը հրապարակվել է անցյալ ամիս Patterns ամսագրում, ցույց են տալիս որոշ ապշեցուցիչ բացահայտումներ լեզվի մեծ մոդելների (LLM) և դրանց` դիտորդներին դիտավորյալ ստելու կամ խաբելու ունակության մասին:
PNAS-ում հրապարակված հոդվածում, AI-ի գերմանացի էթիկայի մասնագետ Թիլո Հագենդորֆը պնդում է, որ բարդ LLM-ները կարող են խրախուսել «մաքիավելիզմը» կամ դիտավորյալ մանիպուլյացիան, որը «կարող է առաջացնել խաբուսիկ վարք»:
Meta-ի Cicero մոդելը «Դիվանագիտություն» սեղանի քաղաքական խաղում դարձել է Patterns-ի ուսումնասիրության օբյեկտ: Ինչպես պարզել է ֆիզիկոսից, փիլիսոփայից և AI-ի անվտանգության երկու փորձագետներից բաղկացած հետազոտական խումբը, LLM-ն խաբեության միջոցով առաջ է անցել իր մարդկային մրցակիցներից:
Cicero-ն ոչ միայն հաջողության է հասել խաբելու մեջ, այլև, կարծես, սովորել է ավելի հաճախ ստել , որքան շատ են այն օգտագործում։ Այս իրավիճակը շատ ավելի մոտ է բացահայտ մանիպուլյացիայի։
Մոդելը, ինչպես նշում են հոդվածի հեղինակները, «զբաղվում է կանխամտածված խաբեությամբ, խախտում է այն պայմանավորվածությունները, որոնց նա համաձայնել է, եւ բացահայտ սուտ է խոսում: Այլ կերպ ասած, Meta AI-ն սովորել է լինել խաբեության վարպետ»:
«Մինչ Meta-ին հաջողվել է սովորեցնել իր AI-ին հաղթել «Դիվանագիտություն» խաղում», – ասվում է MIT-ի ֆիզիկոսի հայտարարության մեջ, – «Meta-ն չի կարողացել սովորեցնել իր AI-ին ազնվորեն հաղթել»:
Ուսումնասիրության արդյունքների հրապարակումից հետո New York Post-ի հայտարարության մեջ Meta-ն ընդգծել է. «մեր հետազոտողների կառուցած մոդելները վերապատրաստվել են բացառապես «դիվանագիտություն» խաղի մեջ»:
Տեխնոլոգիական հրապարակումներն իրականացվում են Իդրամի աջակցությամբ։