پژوهشگران اپل از مدل هوش مصنوعی جدیدی به نام Ferret-UI Lite رونمایی کردهاند؛ یک ایجنت هوش مصنوعی سبک که مستقیماً روی دستگاه اجرا میشود و میتواند بر اساس درخواست کاربر، با رابط کاربری اپلیکیشنها تعامل کند. نکته قابلتوجه اینکه این مدل با وجود داشتن تنها ۳ میلیارد پارامتر، عملکردی همسطح یا حتی بهتر از برخی مدلهای GUI دارد که تا ۲۴ برابر بزرگتر هستند.
داستان Ferret به دسامبر ۲۰۲۳ بازمیگردد؛ زمانی که تیمی ۹ نفره از پژوهشگران اپل مقالهای با عنوان “FERRET: Refer and Ground Anything Anywhere at Any Granularity” منتشر کردند. در آن پژوهش، یک مدل چندوجهی زبانی (MLLM) معرفی شد که میتوانست به ارجاعات زبانی درباره بخشهای خاصی از یک تصویر پاسخ دهد.
پس از آن، اپل نسخههای توسعهیافتهای شامل Ferretv2 ،Ferret-UI و Ferret-UI 2 را منتشر کرد.
در حالی که Ferret-UI اولیه بر پایه مدلی با ۱۳ میلیارد پارامتر ساخته شده بود و Ferret-UI 2 نیز پشتیبانی از پلتفرمهای بیشتر و رزولوشن بالاتر را اضافه کرد، نسخه Lite رویکردی متفاوت دارد؛ مدلی که از ابتدا برای اجرای مستقیم روی دستگاه طراحی شده، ساختاری سبک و کممصرف دارد و با وجود اندازه کوچکتر، در برابر مدلهای بسیار بزرگتر نیز رقابتی ظاهر میشود.
پژوهشگران تأکید میکنند بیشتر ایجنتهای GUI موجود بر پایه مدلهای عظیم سمت سرور ساخته شدهاند؛ زیرا این مدلها توانایی استدلال و برنامهریزی قوی دارند. اما چنین مدلهایی معمولاً برای اجرا روی دستگاه بسیار سنگین و پرمصرف هستند.
Ferret-UI Lite با ترکیب دادههای واقعی و مصنوعی، تنظیم دقیق نظارتشده و یادگیری تقویتی آموزش دیده و از تکنیک برش و بزرگنمایی در لحظه استفاده میکند. در این روش، مدل پس از یک پیشبینی اولیه، همان بخش را دوباره برش داده و با دقت بیشتری تحلیل میکند تا محدودیت ظرفیت خود در پردازش جزئیات تصویری را جبران کند.

یکی از نوآوریهای اصلی Ferret-UI Lite استفاده از یک سیستم چندعاملی برای تولید داده آموزشی مصنوعی است؛ سیستمی که وظایف را طراحی میکند، آنها را به مراحل اجرایی تقسیم کرده، آنها را اجرا و در نهایت نتیجه را ارزیابی میکند تا تعاملات واقعی، حتی با خطا و شرایط پیشبینینشده، در دادهها ثبت شود.
نقاط قوت و محدودیتها این مدل هوش مصنوعی
نتایج نشان میدهد Ferret-UI Lite در وظایف کوتاهمدت و سطح پایین عملکرد بسیار خوبی دارد، اما در تعاملات پیچیده و چندمرحلهای ضعیفتر از مدلهای بزرگتر ظاهر میشود؛ موضوعی که با توجه به محدودیتهای یک مدل کوچک و رویدستگاهی قابلانتظار است.
در مقابل، مهمترین مزیت آن اجرای محلی و حفظ حریم خصوصی است؛ زیرا دادهای برای پردازش به سرورهای ابری ارسال نمیشود.
در مجموع، Ferret-UI Lite میتواند گامی مهم در مسیر ایجنتهای شخصی هوش مصنوعی باشد که مستقیماً روی گوشی یا لپتاپ اجرا شده و بهصورت خودکار با اپلیکیشنها تعامل میکنند.
