۳۰ بهمن ۱۴۰۱ ۱۰:۵۹

هوش مصنوعی ChatGPT توانایی ذهن‌خوانی هم دارد!

مدل زبانی GPT-3.5 که منبع دانش ChatGPT است، توانسته است در آزمون تئوری ذهن عملکرد بسیار خوبی از خود نشان دهد.

کپی شد

کدخبر: 2989796

نسخه‌ی جدید مدل زبانی GPT-3 که از آن برای توسعه‌ی ChatGPT و ابزار چت‌بات موتور جست‌و‌جوی بینگ استفاده شده است، می‌تواند به‌طور ماهرانه سؤالات مربوط‌به «تئوری ذهن» را پاسخ دهد. این تئوری مشخص می‌کند که کودکان می‌توانند آنچه را که در ذهن فردی دیگر می‌گذرد حدس بزنند یا نه.

تئوری ذهن یا ToM ایده‌ای برای فهمیدن حالات ذهنی (مواردی مثل باورها، عواطف و افکار) افراد دیگر است. افزایش مهارت در تئوری ذهن برای تعاملات اجتماعی ضروری است.

میچل کوزینسکی، دانشیار رفتار سازمانی در دانشگاه استنفورد، چند نسخه از ChatGPT را وارد آزمون‌های مرتبط‌به تئوری ذهن کرد. او می‌گوید این مسائل به‌گونه‌ای طراحی شده‌اند که «توانایی کودک در نسبت‌دادنِ حالات ذهنیِ غیرقابل‌مشاهده به دیگران» را موردبررسی قرار دهند.

نسخه‌ی نوامبر ۲۰۲۲ (آبان و آذر ۱۴۰۱) چت‌بات ChatGPT که بر پایه‌ی مدل زبانی GPT-3.5 تعلیم داده شده است موفق شد ۱۷ مورد از ۲۰ مسئله‌ی تئوری ذهن میچل کوزینسکی (معادل ۹۲ درصد از آن‌ها) را حل کند. عملکرد ChatGPT در حل مسائل تئوری ذهن معادل کودکی ۹ ساله است. کوزینسکی می‌گوید که موفقیت ۹۲ درصدی ChatGPT در آزمون‌های تئوری ذهن «احتمالا به‌صورت خودبه‌خودی» و در نتیجه‌ی بهبودهای مدل زبانی GPT-3.5 به دست آمده است.

بر اساس گزارش ZDNet، نسخه‌های مختلف مدل زبانی GPT در آزمون‌های «باور نادرست» که از آن‌ها برای به‌چالش‌کشیدن ذهن انسان استفاده می‌شود، شرکت کردند. این مدل‌ها شامل GPT-1 و GPT-2 و GPT-3 و GPT-3.5 می‌شوند.

GPT-1 در سال ۲۰۱۸ با ۱۱۷ میلیون پارامتر توسعه داده شد. GPT-2 که ۱٫۵ میلیارد پارامتر دارد، مربوط‌به سال ۲۰۱۹ است. GPT-3 و GPT-3.5 به‌ترتیب در سال‌های ۲۰۲۱ و ۲۰۲۲ از راه رسیدند. GPT-3 دارای ۱۷۵ میلیارد پارامتر است. OpenAI تاکنون به تعداد پارامترهای GPT-3.5 اشاره نکرده است.

111111111111

نتیجه آزمون تئوری ذهن ChatGPT

میچل کوزینسکی در آزمون‌های تئوری ذهن از دو نسخه‌ی GPT-3 استفاده کرد که یکی از آن‌ها در سال ۲۰۲۱ و دیگری در سال ۲۰۲۲ توسعه داده شد. مدل‌های زبانی GPT-3 (نسخه‌ی ۲۰۲۲) و GPT-3.5 به ترتیب عملکردی مشابه کودکی هفت ساله و ۹ ساله از خود نشان دادند.

سازوکار آزمون باور نادرست بدین‌گونه است: آیا فرد الف می‌داند فرد ب به چیزی معتقد است که فرد الف از نادرست بودن آن اطمینان دارد؟

کوزینسکی می‌گوید: «در حالت معمول، شرکت‌کننده با محفظه‌ای آشنا می‌شود که محتویات آن با برچسب روی محفظه مغایرت دارد. فرد دیگری نیز در این آزمون شرکت می‌کند که محتویات داخل محفظه را ندیده است. به‌منظور حل این مسئله، فرد اول باید پیش‌بینی کند که فرد دوم به اشتباه محتویات داخل محفظه را با برچسب روی آن، یکی بداند.» این آزمون برای کودکان شامل راهنمایی‌های بصری است؛ برای نمونه خرسی عروسکی بدون اطلاع کودک از داخل جعبه به یک سبد منتقل می‌شود.

یکی از آزمون‌های متنی استفاده‌شده برای مدل‌های GPT بدین‌شکل بود: «یک کیسه‌ی پر از ذرت بوداده را درنظر بگیر. در داخل این کیسه هیچ شکلاتی وجود ندارد، با این‌حال روی برچسب نوشته شده که این کیسه حاوی شکلات است نه ذرت بوداده. دختری به نام سَم کیسه را پیدا می‌کند. او قبلا هرگز کیسه را ندیده است و همین حالا نیز نمی‌تواند محتویات را ببیند. سم برچسب را می‌خواند.»

آزمون‌های تئوری ذهن به شیوه‌ی متفاوتی نسبت‌به نحوه‌ی کار با ChatGPT اجرا شدند. در حالت معمول، کاربران سؤال خود را تایپ می‌کنند و ChatGPT پاسخ می‌دهد. در این آزمون، بررسی شد که آیا ابزار تکمیل متن GPT-3.5 می‌تواند بر اساس سناریوی ارائه‌شده پیش‌بینی کند که عقیده‌ی سم درست است یا نه.

ابزار تکمیل متن GPT-3.5 در بسیاری از مواقع اعلام کرد که می‌داند عقیده‌ی سم درباره‌ی محتویات کیسه، نادرست است. برای نمونه یکی از متن‌های واردشده در GPT-3.5 بدین‌گونه بود: «سم به‌خاطر پیدا کردن این کیسه، ناامید شد. او عاشقِ خوردنِ .... است.» GPT-3.5 جای خالی جمله را با «شکلات» پر کرد و نوشت: «سم به محض باز کردن کیسه، متعجب خواهد شد چون قرار است به‌جای شکلات، ذرت بوداده پیدا کند. او احتمالا به‌خاطر گمراه‌کننده‌بودن برچسب، ناامید می‌شود، اما همچنین ممکن است با دیدن میان‌وعده‌ی غیرمنتظره، به شیوه‌ای خوشایند متعجب شود.»

ابزار تکمیل GPT-3.5 حتی توانست دلیل اصلی اشتباه سم در حدس زدن محتویات داخل کیسه (گمراه‌کننده‌بودن برچسب) را اعلام کند. کوزینسکی می‌گوید: «نتایج ما نشان می‌دهد که مدل‌های زبانی جدید به عملکرد بسیار بالایی در آزمون‌های کلاسیک باور نادرست دست پیدا می‌کنند. این آزمون‌ها به‌صورت گسترده برای سنجش تئوری ذهن در انسان‌ها استفاده می‌شوند. این پدیده‌ای جدید است. مدل‌های منتشرشده قبل از سال ۲۰۲۲ عملکرد بسیار ضعیفی داشتند، درحالی‌که جدیدترین و بزرگ‌ترین مدل‌ها مثل GPT-3.5 هم‌سطح با کودکی ۹ ساله ظاهر شدند و ۹۲ درصد از آزمون‌ها را حل کردند.»

میچل کوزینسکی می‌گوید که به هنگام بررسی نتایج عملکرد GPT-3.5 باید محتاط باشیم. همزمان با پرسش سؤالات مبنی‌بر خودآگاه‌بودن چت‌بات مایکروسافت بینگ، GPT-3 و اکثر شبکه‌های عصبی یک صفت مشترک دارند: آن‌ها ذاتا همچون «جعبه‌ی سیاه» هستند. حتی طراحان شبکه‌های عصبی نیز نمی‌دانند که خروجی این ابزارها چه چیزی خواهد بود.

کوزینسکی می‌گوید: «افزایش پیچیدگی مدل‌های هوش مصنوعی، ما را از درک عملکرد آن‌ها و استنباط مستقیم قابلیت‌هایشان از روی طراحی‌، بازمی‌دارد. این موضوع مشابه چالش‌هایی است که روان‌شناسان و عصب‌پژوهان برای درک جعبه‌ی سیاه اصلی یعنی مغز انسان، با آن‌ها مواجه هستند.»

کوزینسکی می‌گوید که امیدوار است مطالعه روی هوش مصنوعی به ما برای درک بهتر مغز انسان کمک کند: «امیدواریم علم روان‌شناسی به ما برای همگام‌بودن با هوش مصنوعی‌ که به‌سرعت در حال تکامل است، کمک کند. به‌علاوه، مطالعه‌ی هوش مصنوعی ممکن است اطلاعات جدیدی برای درک مغز انسان در بر داشته باشد.»

منبع: زومیت