אנתרופיק פרסמה מסמך מחקר ב-23 במאי 2024, עם הכותרת "שער הזהב קלוד", המתרכז בהבנה של מודלים של שפות גדולות, בעיקר סונטת קלוד 3 שלהם.

שער הזהב קלוד: הצצה לפירוש מודל AI

אנתרופיק פרסמה מסמך מחקר ב-23 במאי 2024, עם הכותרת "שער הזהב קלוד", המתרכז בהבנה של מודלים של שפות גדולות, במיוחד מודל ה-AI של קלוד 3 Sonnet. המחקר ביקש לפענח את קלוד על ידי איתור ותמרון של מושגים או "תכונות" מובחנים שמפעילים בתוך הרשת העצבית של המודל עם מפגש עם טקסט או תמונות רלוונטיות. דוגמה להמחשה שסופקה הייתה התכונה המקושרת לגשר שער הזהב, שחשפה כיצד שילובי נוירונים מסוימים מופעלים כאשר נתקלים בהפניות או בתמונות של הגשר. התאמת החוזק של הפעלת תכונה אלו משנה את התשובות של קלוד, ומקרבת אותם לנושא גשר שער הזהב, אפילו בתרחישים מפורקים. יכולת ההתאמה הזו הודגשה באמצעות "שער הזהב קלוד", וריאציה של המודל שזמינה לשימוש הציבור באתר claude.ai, המאפשרת למבקרים לראות שינויים בהתנהגות על ידי שימוש במודל באמצעות סמל ספציפי באתר.

השבוע, הראינו כיצד שינוי "תכונות" פנימיות ב-AI שלנו, קלוד, יכול לשנות את התנהגותו. מצאנו תכונה שיכולה לגרום לקלוד להתמקד מאוד בגשר שער הזהב. כעת, לזמן מוגבל, אתה יכול לשוחח עם גולדן שער קלוד: https://t.co/uLbS2JNczH pic.twitter.com/WHmoi2AmoR
— Anthropic (@AnthropicAI) May 23, 2024

כדי לחוות תופעה זו, המבקרים יכולים ללכת אל claude.ai, לבחור את סמל שער הזהב, ולהשתמש ב"שער הזהב קלוד", המוביל לתשובות שמרכזן בעיקר סביב גשר שער הזהב. אינטראקציה ברורה זו משמשת הדגמה ברורה של מטרות המחקר: להמחיש את חשיבות הפרשנות בהבנת מודלים מורכבים של AI ולהציע תובנות לגבי שינוי התנהגות AI על ידי שינוי הפעלת תכונות.

יוזמת שער הזהב של קלוד מדגישה שיטה חדשה של בדיקה ושינוי של המכניקה הפנימית של מודלים של AI, ומספקת דוגמה קונקרטית לאופן שבו מאמצי פרשנות מדוקדקים יכולים להביא להבנה מעמיקה יותר של פונקציונליות AI. בחינה זו לא רק מנווטת ברשת המורכבת של תכונות מודל בינה מלאכותית אלא גם מציגה אסטרטגיה לשינוי ישיר של התנהגות בינה מלאכותית, ותורמת תובנות חיוניות לגבי הפוטנציאל לכוון דפוסי תגובה לבינה מלאכותית באמצעות התאמת תכונות מדויקת.