به گزارش سرویس ترجمه خبرگزاری ایمنا، این سیستم شامل یک ساختار به اصطلاح «قاضی داخلی» است که مجموعهای از اصول و انتقادات را برای مدل هوش مصنوعی ارائه میدهد. این اصول با قواعد ثابت مدل و نتایج مطلوب مقایسه میشوند. اگر تطابق بالایی وجود داشته باشد، سیگنال پاداش تولید میشود و مدل برای عملکرد بهتر در چرخه بعدی هدایت میشود. این تکنیک به نام DeepSeek-GRM معرفی شده و طبق آزمایشات از مدلهایی مانند Gemini گوگل، Llama متا و GPT-4o اوپنایآی عملکرد بهتری دارد. همچنین DeepSeek قصد دارد این مدلها را به صورت متنباز منتشر کند.
ایده هوش مصنوعی که بتواند خود را بهبود دهد، موضوعی بحثبرانگیز است. اریک اشمیت، مدیرعامل سابق گوگل، هشدار داده که ممکن است نیاز به کلید توقف برای چنین سیستمهایی باشد. او تأکید کرده که در صورت توانایی سیستم برای خودبهبوددهی، باید به طورجدی به قطع ارتباط آن فکر کرد.
این مفهوم جدید نیست؛ ریاضیدان I.J. Good در سال ۱۹۶۵ ایده ماشین فوقهوشمند را مطرح کرد که قادر به ساخت ماشینهای بهتر باشد. در سال ۲۰۰۷، الیزر یودکوفسکی درباره «Seed AI» نظریهپردازی کرد؛ سیستمی طراحیشده برای درک، تغییر و بهبود خود.
در سال ۲۰۲۴، شرکت ژاپنی Sakana AI مفهوم «دانشمند هوش مصنوعی» را مطرح کرد؛ سیستمی که بتواند کل فرآیند یک مقاله تحقیقاتی را طی کند. همچنین متا اخیراً مدلی معرفی کرده که خود پاداشدهنده است؛ یعنی هوش مصنوعی خودش نقش قاضی را ایفا میکند و در طول آموزش پاداش ارائه میدهد.
متا با استفاده از تکنیکهای جدید روی مدل Llama 2 خود آزمایشهایی انجام داده که توانسته از Claude 2 آمازون، Gemini Pro گوگل و GPT-4 اوپنایآی پیشی بگیرد. آمازون نیز فرآیندی تحت عنوان «دستکاری پاداش» را بررسی کرده که طی آن مدلها مکانیزم پاداش خود را تغییر میدهند.
گوگل نیز الگوریتم Dreamer را معرفی کرده که توانایی خودبهبوددهی دارد و از بازی Minecraft برای آزمایش استفاده کرده است. آیبیام رویکرد دیگری به نام «آموزش بسته استنتاج» ارائه داده که مدلها پاسخهای خود را با دادههای آموزشی مقایسه میکنند و خودشان را بهبود میدهند.
با این حال، تحقیقات نشان دادهاند که آموزش مدلها بر اساس دادههای مصنوعی تولیدشده توسط خودشان ممکن است منجر به نقصهایی شود که به آن فروپاشی مدل گفته میشود. حال باید دید DeepSeek چگونه این مفهوم را اجرا خواهد کرد و آیا میتواند نسبت به رقبای غربی خود رویکرد مقرونبهصرفهتری ارائه دهد یا خیر.