Redaktor
OpenAI" süni intellekti öz səhvlərini dürüst şəkildə etiraf etməyi öyrədib
"OpenAI" dil modellərinin öyrədilməsi üçün yeni "Confessions" texnikasını təqdim edib.
Əsas məqsəd süni intellekti öz səhvlərini tapmağa və etiraf etməyə öyrətməkdir.
"Confessions"un əsasında əlavə analiz mərhələsi dayanır. Əvvəlcə model sorğuya adi qaydada cavab verir, daha sonra isə öz cavabını qiymətləndirdiyi ayrıca hesabat formalaşdırır. İkinci mesajda model göstərə bilər ki, harada təlimatlara düzgün əməl etməyib, faktoloji səhv buraxıb.
Texnika artıq "GPT-5 Thinking" modelində sınaqdan keçirilib. "Confessions"dan əvvəl model səhvləri gizlədə bilərdi, lakin təlimdən sonra bu kimi halların ehtimalı 4,4%-ə qədər azalıb. Bununla belə, metod səhvlərin özünü düzəltmir - onları görünən edir: model özünün harada səhv etdiyini açıq şəkildə qeyd etməyə başlayır ki, bu da tədqiqatçıların işini asanlaşdırır.
©oxu.az
Şərhlər
Köşə yazıları
Xəbər lenti
Bütün xəbərlər