مدل‌های زبانی بزرگ مانند دانشمندن فکر نمی‌کنند، نمی‌توانند مطالب علمی جدید کشف کنند

شنبه ۲۹ آذر ۱۴۰۴

‌مقاله‌ای از هاروارد و MIT بدون سروصدا به مهم‌ترین سؤال هوش مصنوعی پاسخ می‌دهد که هیچ‌کس به‌درستی بنچمارک (Benchmark) نکرده (محک نزده):
آیا مدل‌های زبانی بزرگ واقعاً می‌توانند مطلب علمی جدیدی را کشف کنند، یا فقط در حرف زدن دربارهٔ آن خوب هستند؟

این مقاله، با عنوان «ارزیابی مدل‌های زبانی بزرگ در کشف علمی»، به‌جای پرسیدن سؤال‌های پیش پا افتاده و (trivia) یا معمول از مدل‌ها، چیزی بسیار سخت‌تر را آزمایش کرده است:

آیا مدل‌ها می‌توانند فرضیه بسازند، آزمایش طراحی کنند، نتایج را تفسیر کنند و باورها را مانند دانشمندان واقعی به‌روزرسانی کنند؟

این چیزی است که نویسندگان به شیوهٔ متفاوتی انجام دادند 👇

‏●‏ آنها مدل‌های زبانی را در کل حلقهٔ کشف ارزیابی می‌کنند:
فرضیه ‏←‏ آزمایش ‏←‏ مشاهده ‏←‏ بازنگری [و تکرار این چرخه]
‏●‏ وظایف شامل زیست‌شناسی، شیمی و فیزیک است، نه پازل‌های اسباب‌بازی
‏●‏ مدل‌ها باید با داده‌های ناقص، نتایج پُر از نویز (اختلال)، و سرنخ‌های غلط کار کنند
‏●‏ موفقیت بر اساس پیشرفت علمی اندازه‌گیری می‌شود، نه روان بودن یا اعتماد به نفس

آنچه پیدا کردند تکان‌دهنده است.

مدل‌های زبانی بزرگ در پیشنهاد دادن فرضیه‌ها خوب هستند، اما در همهٔ مراحل بعدی شکننده‌اند.

✓ آن‌ها داده ها را بیش از اندازه با الگوهای سطحی مطابقت می‌کنند(over fit)
✓ حتی وقتی شواهد با آن‌ها تناقض دارد، رها کردن فرضیه‌های بد برایشان سخت است
✓ همبستگی را با علیت اشتباه می‌گیرند
✓ وقتی آزمایش‌ها شکست می‌خورند، توضیحات توهمی می‌سازند
✓ برای محتمل بودن بهینه‌سازی می‌کنند، نه پیدا کردن حقیقت

شگفت‌انگیزترین نتیجه:

نمرات زیاد بنچمارک (Benchmark، محک زدن) با توانایی کشف علمی همبستگی ندارد.

برخی از مدل‌های برتر که در آزمون‌های استدلال استاندارد غالب هستند وقتی مجبور به اجرای آزمایش‌های تکراری و به‌روزرسانی نظریه‌ها شوند کاملاً شکست می‌خورند.

چرا این مهم است:

علم واقعی استدلال یک‌باره نیست.

علم واقعی حاصل بازخورد، شکست، بازنگری، و خویشتن‌داری است.

مدل‌های زبانی بزرگ امروز:
‏●‏ مانند دانشمندان حرف می‌زنند
‏●‏ مانند دانشمندان می‌نویسند
‏●‏ اما هنوز مانند دانشمندان فکر نمی‌کنند

پیام اصلی مقاله:

هوش علمی هوش زبانی نیست.

نیاز به حافظه، ردیابی فرضیه، استدلال علی، و توانایی گفتن «اشتباه کردم» دارد.

تا وقتی مدل‌ها نتوانند این کار را به‌طور قابل اعتماد انجام دهند، ادعاها دربارهٔ «دانشمندان هوش مصنوعی» عمدتاً نابهنگام‌اند.

این مقاله هوش مصنوعی را تبلیغ نمی‌کند. شکاف باقی‌مانده را تعریف می‌کند.

و دقیقاً به همین دلیل مهم است.

🔻پیوند به مقاله:

https://arxiv.org/abs/2512.15567

🔻توضیح تکمیلی:
این‌کار در شرکت Deep Principle در چین‌ انجام شده است. نویسندگان‌ اول و آخر در این شرکت‌ کار می‌کنند.

شرکتی تحقیقاتی به نام Deep Principle در هانگژو است که گاهی با عنوان Deep Principles Technology نیز شناخته می‌شود.

این شرکت را جیا هائوجون (فارغ‌التحصیل دکتری MIT در شیمی محاسباتی کوانتومی) تأسیس کرده که متخصص در هوش مصنوعی برای علم (AI for Science) است، به‌ویژه در تسریع کشف مواد شیمیایی و مواد با استفاده از هوش مصنوعی، محاسبات اصول اولیه، شیمی کوانتومی، و آزمایش‌های پُربازده. پلتفرم آنها، مانند ReactiveAI، بر حوزه‌هایی مانند مواد کاتالیزوری، بهینه‌سازی واکنش‌ها، و کاربردهایی در جذب کربن و پتروشیمی تمرکز دارد.

این شرکت سرمایه‌گذاری زیادی (حدود ۱۰ تا ۲۰میلیون دلار در دورهای اولیه، از سرمایه‌گذارانی مانند GL Ventures، Linear Capital و دیگران جذب کرده، یارانه‌های دولتی در هانگژو دریافت کرده، و در سال ۲۰۲۵ مجمع جهانی اقتصاد (World Economic Forum Technology Pioneer) آن را پیشگام فناوری شناخته شده است. وب‌سایت رسمی آن deepprinciple.com است.

توجه: هانگژو همچنین میزبان شرکت‌های برجستهٔ هوش مصنوعی دیگری مانند DeepSeek (شرکتی در حوزهٔ مدل‌های زبانی بزرگ) است، اما Deep Principle شرکتی مجزا با تمرکز بر پژوهش‌های علمی هوش مصنوعی در شیمی و مواد است.

متن اصلی از https://x.com/alex_prompter/status/2001626509845631176?s=20

متن فارسی از کانال تلگرام بین‌ دوگانگی‌ها

چاپ 🖨