رونمایی آکادمی هوش مصنوعی پکن از نسل جدید مدل‌های چندوجهی

آکادمی هوش مصنوعی پکن از مدل جهانی چندوجهی خود با نام Emu3 رونمایی کرد که قادر به درک و تولید ویدیو، تصاویر و متن است.

به گزارش چاینادیلی، این مدل ثابت می‌کند که پیش‌بینی توکن بعدی (پیش‌بینی کلمه یا عنصر بعدی در یک دنباله) می‌تواند علاوه بر متن‌ها و مدل‌های زبانی، برای مدل‌های چندوجهی (که هم با متن و هم تصاویر سر و کار دارند) نیز مفید باشد.

مدل Emu3 بر پیش‌بینی قسمت بعدی یک دنباله تمرکز می‌کند و در نتیجه نیازی به روش‌های پیچیده مانند انتشار (diffusion) یا ترکیب (composition) ندارد.

به‌علاوه این مدل تصاویر، متون و ویدیوها را به یک فرمت واحد تبدیل نموده و مدل ترنسفورمر واحدی را از ابتدا بر روی ترکیبی از انواع مختلف دنباله‌ها (شامل متن و تصویر) آموزش می‌دهد؛ و به این ترتیب نیازی به ترکیب مدل‌های انتشاری پیچیده با مدل‌های زبانی بزرگ نخواهد بود.

فناوری‌ها و مدل‌های کلیدی Emu3 به‌صورت متن‌باز در اختیار عموم قرار گرفته‌اند.

مدل‌های جهانی چندوجهی در آینده کاربردهای فراوانی در حوزه‌های مختلف از قبیل رباتیک شناختی، سامانه‌های رانندگی خودکار و استدلال و مکالمه چندوجهی خواهند داشت.

منبع: chinadaily

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *