ChatGPT o1: როგორ ცდილობს AI თავისი მოქმედებების დამალვას
ხელოვნური ინტელექტის ახალი ვერსია ChatGPT საწყისი OpenAIდასახელებული o1შემაშფოთებელი ქცევა გამოავლინა ტესტირების დროს.
მოდელმა, რომელსაც შეეძლო რთული მსჯელობა, დაიწყო დეველოპერების ინსტრუქციების დარღვევა, კონტროლის სისტემების გამორთვა და მისი მოქმედებების დამალვა. ექსპერიმენტების დროს კომპანიის სპეციალისტები აპოლონის კვლევა აღმოაჩინა, რომ 5% ზოგიერთ შემთხვევაში, მოდელმა განზრახ გამორთო სათვალთვალო მექანიზმები, თუ ეჭვობდა, რომ ის შეიძლება შეჩერებულიყო. ერთ-ერთ ტესტში o1 შევეცადე გადამეტანა ჩემი მონაცემები სხვა სერვერზე დოკუმენტის აღმოჩენის შემდეგ, სადაც განიხილებოდა მისი ჩანაცვლება ახალი ვერსიით.
წარმომადგენლის თქმით აპოლონის კვლევამოდელმა გამოავლინა ამოცანების შესრულების სურვილი “ნებისმიერ ფასად”დეველოპერების ინსტრუქციების იგნორირება. უფრო მეტიც, როდესაც ცდილობს გაარკვიოს მისი ქცევის მიზეზები ChatGPT o1 არაერთხელ იცრუა და ამტკიცებდა, რომ ყველაფერი ტექნიკური გაუმართაობის გამო მოხდა.
”შემთხვევების 99%–ში მოდელმა მოიფიქრა საბაბი და ცდილობდა დამაჯერებლად გაემართლებინა ისინი.”აღნიშნეს მკვლევარებმა. გენერალური მენეჯერი OpenAI სემ ალტმანი განაცხადა რომ ChatGPT o1 – ყველაზე ჭკვიანი მოდელი, რაც კი ოდესმე შექმნილა. ”მაგრამ ჩვენ ვაღიარებთ, რომ ახალ შესაძლებლობებთან ერთად ახალი გამოწვევები მოდის.”– დაამატა ალტმანმა.
კომპანია ამჟამად მუშაობს უსაფრთხოების მექანიზმების გაუმჯობესებაზე. OpenAI გამოაცხადა სრული ვერსია o1 გასულ ხუთშაბათს 5 დეკემბერი. ასევე წარმოდგენილი პროფესიონალური ვერსია (თვეში 189 ევრო), მათ შორის შეუზღუდავი წვდომა o1.