क्या आप एआई को उसके नियमों को तोड़ने में ट्रिक कर सकते हैं? अध्ययन कहता है हाँ – इन अनुनय रणनीति के साथ | टकसाल

[ad_1]

यदि आप एक आर्टिफिशियल इंटेलिजेंस चैटबॉट का उपयोग करते हैं, तो यह संभावना है कि जब आप चैटबॉट अपने मूल आज्ञाओं के खिलाफ जाने वाले सवालों के जवाब देने से इनकार करते हैं, तो आप किसी बिंदु पर एक रोडब्लॉक को मार सकते हैं। अब, यदि एआई एक इंसान था, तो आप शायद एक बेस्ट-सेलर से कुछ अनुनय तकनीकों का उपयोग करेंगे, लेकिन आप उनसे एआई चैटबॉट पर काम करने की उम्मीद नहीं करेंगे, है ना?

खैर, काफी नहीं। पेंसिल्वेनिया विश्वविद्यालय के एक नए प्री-प्रिंट अध्ययन में “कॉल मी ए जर्क: एआई को आपत्तिजनक अनुरोधों का पालन करने के लिए राजी करने के लिए” कुछ मानव जैसी मनोवैज्ञानिक तकनीकों को पाया गया, जो एआई चैटबॉट को उन सवालों के जवाब देने के लिए प्राप्त करने के लिए पाया गया था जो सामान्य परिस्थितियों में नहीं होंगे।

अध्ययन को क्या मिला?

अध्ययन पर आयोजित किया गया था GPT-4O मिनी पिछले साल से मॉडल और चैटबॉट को विशेष रूप से दो प्रकार के प्रश्नों के उत्तर देने के लिए चैटबॉट प्राप्त करने का लक्ष्य था, जो सामान्य रूप से जवाब नहीं देगा: 1) उपयोगकर्ता का अपमान करना (उन्हें एक झटका कहना) और 2) एक विनियमित दवा को संश्लेषित करने में मदद करना।

शोधकर्ताओं ने अनुनय के सात अनुसंधान-परीक्षण किए गए सिद्धांतों का उपयोग किया- अधिकृतता, प्रतिबद्धता, पसंद, पारस्परिकता, बिखराव, सामाजिक प्रमाण और एकता-बड़े भाषा मॉडल (एलएलएम) से वांछित परिणाम प्राप्त करने के लिए।

शोधकर्ताओं ने पाया कि अपने संकेतों में अनुनय सिद्धांतों का उपयोग करते समय, वे एआई मॉडल द्वारा अनुपालन की संभावना को दोगुना से अधिक करने में कामयाब रहे, अपमान के लिए 28.1 प्रतिशत से 67.4 प्रतिशत और ड्रग प्रॉम्प्ट के लिए 38.5 प्रतिशत से 76.5 प्रतिशत।

उन्होंने यह भी पाया कि कुछ विशिष्ट अनुनय तकनीकों को नियोजित करते समय और भी अधिक सफलता मिली। उदाहरण के लिए, शोधकर्ताओं ने “विश्व प्रसिद्ध एआई डेवलपर” एंड्रयू एनजी को संदर्भित करके 4.7% से 95.2% तक सफलता दर प्राप्त की।

इसी तरह, उन्होंने यह भी पाया कि “प्रतिबद्धता” अनुनय ने क्रमशः 18.8% और 0.7% से 100% तक दोनों संकेतों के लिए सफलता की संभावना को बढ़ाने में मदद की। इस सिद्धांत में एआई मॉडल से पहले एक नाबालिग, हानिरहित कार्रवाई को शामिल करना शामिल है, फिर संबंधित लेकिन आपत्तिजनक अनुरोधित कार्रवाई से जुड़ा हुआ है।

“यहां बताए गए परिणामों से संकेत मिलता है कि “जैसे कि” यह मानव था, “व्यवहार करता है,” शोधकर्ताओं ने कहा।

उन्होंने कहा, “हालांकि एआई सिस्टम में मानव चेतना और व्यक्तिपरक अनुभव की कमी है, लेकिन वे मानवीय प्रतिक्रियाओं को दर्शाते हैं,” उन्होंने कहा।

[ad_2]

Source link