(تصویر تزیینی افزودهٔ اندیشهٔ نو است.)
شنبه ۲۹ آذر ۱۴۰۴
مقالهای از هاروارد و MIT بدون سروصدا به مهمترین سؤال هوش مصنوعی پاسخ میدهد که هیچکس بهدرستی بنچمارک (Benchmark) نکرده (محک نزده):
آیا مدلهای زبانی بزرگ واقعاً میتوانند مطلب علمی جدیدی را کشف کنند، یا فقط در حرف زدن دربارهٔ آن خوب هستند؟
این مقاله، با عنوان «ارزیابی مدلهای زبانی بزرگ در کشف علمی»، بهجای پرسیدن سؤالهای پیش پا افتاده و (trivia) یا معمول از مدلها، چیزی بسیار سختتر را آزمایش کرده است:
آیا مدلها میتوانند فرضیه بسازند، آزمایش طراحی کنند، نتایج را تفسیر کنند و باورها را مانند دانشمندان واقعی بهروزرسانی کنند؟
این چیزی است که نویسندگان به شیوهٔ متفاوتی انجام دادند 👇
● آنها مدلهای زبانی را در کل حلقهٔ کشف ارزیابی میکنند:
فرضیه ← آزمایش ← مشاهده ← بازنگری [و تکرار این چرخه]
● وظایف شامل زیستشناسی، شیمی و فیزیک است، نه پازلهای اسباببازی
● مدلها باید با دادههای ناقص، نتایج پُر از نویز (اختلال)، و سرنخهای غلط کار کنند
● موفقیت بر اساس پیشرفت علمی اندازهگیری میشود، نه روان بودن یا اعتماد به نفس

آنچه پیدا کردند تکاندهنده است.
مدلهای زبانی بزرگ در پیشنهاد دادن فرضیهها خوب هستند، اما در همهٔ مراحل بعدی شکنندهاند.
✓ آنها داده ها را بیش از اندازه با الگوهای سطحی مطابقت میکنند(over fit)
✓ حتی وقتی شواهد با آنها تناقض دارد، رها کردن فرضیههای بد برایشان سخت است
✓ همبستگی را با علیت اشتباه میگیرند
✓ وقتی آزمایشها شکست میخورند، توضیحات توهمی میسازند
✓ برای محتمل بودن بهینهسازی میکنند، نه پیدا کردن حقیقت
شگفتانگیزترین نتیجه:
نمرات زیاد بنچمارک (Benchmark، محک زدن) با توانایی کشف علمی همبستگی ندارد.
برخی از مدلهای برتر که در آزمونهای استدلال استاندارد غالب هستند وقتی مجبور به اجرای آزمایشهای تکراری و بهروزرسانی نظریهها شوند کاملاً شکست میخورند.
چرا این مهم است:
علم واقعی استدلال یکباره نیست.
علم واقعی حاصل بازخورد، شکست، بازنگری، و خویشتنداری است.
مدلهای زبانی بزرگ امروز:
● مانند دانشمندان حرف میزنند
● مانند دانشمندان مینویسند
● اما هنوز مانند دانشمندان فکر نمیکنند
پیام اصلی مقاله:
هوش علمی هوش زبانی نیست.
نیاز به حافظه، ردیابی فرضیه، استدلال علی، و توانایی گفتن «اشتباه کردم» دارد.
تا وقتی مدلها نتوانند این کار را بهطور قابل اعتماد انجام دهند، ادعاها دربارهٔ «دانشمندان هوش مصنوعی» عمدتاً نابهنگاماند.
این مقاله هوش مصنوعی را تبلیغ نمیکند. شکاف باقیمانده را تعریف میکند.
و دقیقاً به همین دلیل مهم است.
🔻پیوند به مقاله:
https://arxiv.org/abs/2512.15567
🔻توضیح تکمیلی:
اینکار در شرکت Deep Principle در چین انجام شده است. نویسندگان اول و آخر در این شرکت کار میکنند.
شرکتی تحقیقاتی به نام Deep Principle در هانگژو است که گاهی با عنوان Deep Principles Technology نیز شناخته میشود.
این شرکت را جیا هائوجون (فارغالتحصیل دکتری MIT در شیمی محاسباتی کوانتومی) تأسیس کرده که متخصص در هوش مصنوعی برای علم (AI for Science) است، بهویژه در تسریع کشف مواد شیمیایی و مواد با استفاده از هوش مصنوعی، محاسبات اصول اولیه، شیمی کوانتومی، و آزمایشهای پُربازده. پلتفرم آنها، مانند ReactiveAI، بر حوزههایی مانند مواد کاتالیزوری، بهینهسازی واکنشها، و کاربردهایی در جذب کربن و پتروشیمی تمرکز دارد.
این شرکت سرمایهگذاری زیادی (حدود ۱۰ تا ۲۰میلیون دلار در دورهای اولیه، از سرمایهگذارانی مانند GL Ventures، Linear Capital و دیگران جذب کرده، یارانههای دولتی در هانگژو دریافت کرده، و در سال ۲۰۲۵ مجمع جهانی اقتصاد (World Economic Forum Technology Pioneer) آن را پیشگام فناوری شناخته شده است. وبسایت رسمی آن deepprinciple.com است.
توجه: هانگژو همچنین میزبان شرکتهای برجستهٔ هوش مصنوعی دیگری مانند DeepSeek (شرکتی در حوزهٔ مدلهای زبانی بزرگ) است، اما Deep Principle شرکتی مجزا با تمرکز بر پژوهشهای علمی هوش مصنوعی در شیمی و مواد است.
متن اصلی از https://x.com/alex_prompter/status/2001626509845631176?s=20
متن فارسی از کانال تلگرام بین دوگانگیها