ChatGPT برای ایجاد تصاویر یک آپدیت مهم دریافت کرد
به گزارش کشتی کروز، شرکت OpenAI به تازگی قابلیت تازه ای به نام Images in ChatGPT را به چت بات هوش مصنوعی خود اضافه نموده که با بهره گیری از مدل GPT-4o امکان خلق تصاویر را فراهم می نماید. این ابزار نو کیفیت رنگ ها را در تصاویر بالا می برد و نمایش متن درون آن ها را به شکلی چشمگیر بهبود می دهد.

به گفته تارا کریستینسن، سخنگوی OpenAI، این ویژگی از امروز برای همه کاربران در دسترس قرار گرفته است. او شرح داد که افرادی که از نسخه معمولی ChatGPT استفاده می نمایند، با وجود بعضی محدودیت ها، می توانند بدون سقف مشخصی درخواست فراوری تصویر داشته باشند. البته این احتمال وجود دارد که با افزایش استقبال کاربران یا تغییر نیازها، این محدودیت ها در آینده دستخوش تغییر شوند.
گابریل گو، مدیر گروه تحقیقاتی OpenAI، گفته که مدل GPT-4o omnimodal در توسعه این ابزار به کار رفته است؛ مدلی که توانایی پردازش داده های گوناگون را به خوبی داراست. گو بعلاوه به پیشرفت قابل توجه ویژگی Binding اشاره نمود و اضافه نمود: در مدل های پیشین، حفظ هماهنگی میان بخش های مختلف تصویر چالش برانگیز بود، به ویژه وقتی تعداد عناصر تصویر افزایش می یافت. برای نمونه، گاهی هوش مصنوعی به اشتباه به جای یک ستاره آبی و یک مثلث قرمز، یک ستاره قرمز و یک مثلث آبی فراوری می کرد.
با این حال، مدل تازه این ناهماهنگی را رفع نموده و حالا قادر است بین 15 تا 20 عنصر را با دقت در تصویر جای دهد. این در حالی است که مدل های قدیمی تر تنها می توانستند 5 تا 8 عنصر را بدون خطا مدیریت نمایند. گابریل گو در ادامه شرح داد که این قابلیت از روش Autoregressive بهره می برد؛ به این معنا که ChatGPT تصاویر را گام به گام، از بالا به پایین و از چپ به راست، خلق می نماید. این رویکرد با روش مدل های پیشین مانند DALL·E که بر پایه Diffusion model کل تصویر را یکجا پردازش می کردند، تفاوت دارد و به همین علت تصاویر هماهنگی بیشتری دارند.
به گفته مدیر تیم تحقیقاتی OpenAI، این ویژگی نتیجه کوشش های مستمر و آزمایش های متعدد تیم او در ماه های گذشته به شمار می رود. او اظهار داشت که اگرچه این ابزار هنوز در نمایش متون ریز و کوچک درون تصاویر با چالش هایی روبه روست، اما در مجموع توانسته کیفیت متن و تصویر را به صورت هم زمان حفظ کند. این پیشرفت گامی مهم در ارتقای تجربه کاربران ChatGPT محسوب می گردد و نشان دهنده تعهد OpenAI به بهبود مداوم محصولاتش است.
این قابلیت تازه نه تنها دقت و کیفیت را در فراوری تصاویر افزایش داده، بلکه راه را برای کاربردهای متنوع تر این چت بات در حوزه تکنولوژی هموار نموده است. انتظار می رود با دریافت بازخوردهای کاربران، این ابزار در آینده حتی کارآمدتر گردد و محدودیت های فعلی آن نیز به تدریج کاهش یابد.
منبع: The Verge
منبع: دیجیکالا مگ