November 2025
M	T	W	T	F	S	S
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Բիզնես

Արհեստական բանականության համակարգերը սովորում են ստել և խաբել, պարզել են գիտնականները

11/06/2024 16:09

Կիսվել

Արհեստական բանականության համակարգերը սովորում են ստել և խաբել, պարզել են գիտնականները

Արհեստական բանականության մոդելներն ավելի ու ավելի են կատարելագործվում դիտավորյալ ստելու մեջ:

Վերջերս կատարված երկու ուսումնասիրություններ ՝ մեկը, որը հրապարակվել է այս շաբաթ PNAS ամսագրում, և մյուսը, որը հրապարակվել է անցյալ ամիս Patterns ամսագրում, ցույց են տալիս որոշ ապշեցուցիչ բացահայտումներ լեզվի մեծ մոդելների (LLM) և դրանց` դիտորդներին դիտավորյալ ստելու կամ խաբելու ունակության մասին:

PNAS-ում հրապարակված հոդվածում, AI-ի գերմանացի էթիկայի մասնագետ Թիլո Հագենդորֆը պնդում է, որ բարդ LLM-ները կարող են խրախուսել «մաքիավելիզմը» կամ դիտավորյալ մանիպուլյացիան, որը «կարող է առաջացնել խաբուսիկ վարք»:

Meta-ի Cicero մոդելը «Դիվանագիտություն» սեղանի քաղաքական խաղում դարձել է Patterns-ի ուսումնասիրության օբյեկտ: Ինչպես պարզել է ֆիզիկոսից, փիլիսոփայից և AI-ի անվտանգության երկու փորձագետներից բաղկացած հետազոտական խումբը, LLM-ն խաբեության միջոցով առաջ է անցել իր մարդկային մրցակիցներից:

Cicero-ն ոչ միայն հաջողության է հասել խաբելու մեջ, այլև, կարծես, սովորել է ավելի հաճախ ստել , որքան շատ են այն օգտագործում։ Այս իրավիճակը շատ ավելի մոտ է բացահայտ մանիպուլյացիայի։

Մոդելը, ինչպես նշում են հոդվածի հեղինակները, «զբաղվում է կանխամտածված խաբեությամբ, խախտում է այն պայմանավորվածությունները, որոնց նա համաձայնել է, եւ բացահայտ սուտ է խոսում: Այլ կերպ ասած, Meta AI-ն սովորել է լինել խաբեության վարպետ»:

«Մինչ Meta-ին հաջողվել է սովորեցնել իր AI-ին հաղթել «Դիվանագիտություն» խաղում», – ասվում է MIT-ի ֆիզիկոսի հայտարարության մեջ, – «Meta-ն չի կարողացել սովորեցնել իր AI-ին ազնվորեն հաղթել»:

Ուսումնասիրության արդյունքների հրապարակումից հետո New York Post-ի հայտարարության մեջ Meta-ն ընդգծել է. «մեր հետազոտողների կառուցած մոդելները վերապատրաստվել են բացառապես «դիվանագիտություն» խաղի մեջ»:

Տեխնոլոգիական հրապարակումներն իրականացվում են Իդրամի աջակցությամբ։