یک رویکرد جدید "عقل سلیم" برای بینایی رایانه، هوش مصنوعی را قادر میسازد که صحنهها را با دقت بیشتری نسبت به سایر سیستمها تفسیر کند.
سیستمهای بینایی رایانهای گاهی در مورد صحنهای استنباط میکنند که در مواجهه با عقل سلیم است. برای مثال، اگر رباتی در حال پردازش صحنهای از میز شام باشد، ممکن است کاسهای را که برای هر ناظر انسانی قابل مشاهده است، کاملاً نادیده بگیرد، تخمین بزند که یک بشقاب در بالای میز شناور است، یا اینکه چنگال را بهجای نفوذ به کاسه، اشتباه درک کند. به آن تکیه داده است.
آن سیستم بینایی کامپیوتری را به یک خودروی خودران منتقل کنید و ریسکها بسیار بیشتر میشوند - برای مثال، چنین سیستمهایی در تشخیص وسایل نقلیه اضطراری و عابران پیاده که از خیابان عبور میکنند شکست خوردهاند.
برای غلبه بر این خطاها، محققان MIT چارچوبی ایجاد کردهاند که به ماشینها کمک میکند جهان را بیشتر شبیه انسان ببینند. سیستم هوش مصنوعی جدید آنها برای تجزیه و تحلیل صحنه ها یاد می گیرد که اشیاء دنیای واقعی را فقط از چند عکس درک کند و صحنه ها را بر اساس این اشیاء آموخته شده درک می کند.
محققان این چارچوب را با استفاده از برنامهریزی احتمالی، یک رویکرد هوش مصنوعی که سیستم را قادر میسازد تا اشیاء شناساییشده را در مقابل دادههای ورودی بررسی کند، برای دیدن اینکه آیا تصاویر ضبطشده از یک دوربین به احتمال زیاد با صحنه های کاندید مطابقت دارند یا خیر، ساختهاند. استنتاج احتمالی به سیستم این امکان را می دهد که استنباط کند که آیا عدم تطابق به دلیل نویز یا خطاهایی در تفسیر صحنه است باید با پردازش بیشتر تصحیح شود.
این حفاظت عقل سلیم به سیستم اجازه میدهد تا بسیاری از خطاهایی را که رویکردهای "یادگیری عمیق" را که برای بینایی کامپیوتر نیز استفاده شدهاند، شناسایی و تصحیح کند. برنامهریزی احتمالی همچنین امکان استنباط روابط احتمالی بین اشیاء در صحنه و استفاده از استدلال عقل سلیم در مورد این تماسها را برای استنتاج موقعیتهای دقیقتر برای اشیاء امکانپذیر میسازد.
«اگر در مورد روابط تماس نمیدانید، میتوانید بگویید که یک شی در بالای جدول شناور است - این یک توضیح معتبر است. به عنوان انسان، برای ما واضح است که این امر از نظر فیزیکی غیر واقعی است و جسمی که بالای میز قرار گرفته است، موقعیت احتمالی شیء است. از آنجایی که سیستم استدلال ما از این نوع دانش آگاه است، میتواند حالتهای دقیقتری را استنباط کند. این دیدگاه کلیدی این کار است.
علاوه بر بهبود ایمنی خودروهای خودران، این کار میتواند عملکرد سیستمهای ادراک رایانهای را که باید چیدمانهای پیچیده اشیاء را تفسیر کند، مانند رباتی که وظیفه تمیز کردن آشپزخانهای به هم ریخته را دارد، بهبود بخشد.
از نویسندگان همکار گوتوسکار می توان به مارکو کوزومانو تاونر، فارغ التحصیل اخیر دکترای EECS اشاره کرد. مهندس پژوهش بن زینبرگ; دیدار دانش آموز متین قوامی زاده; فالک پولوک، مهندس نرم افزار در آزمایشگاه هوش مصنوعی واتسون MIT-IBM. آستین گرت فارغ التحصیل اخیر کارشناسی ارشد EECS؛ دان گاتفروند، محقق اصلی آزمایشگاه هوش مصنوعی واتسون MIT-IBM. Joshua B. Tenenbaum، استاد توسعه شغلی Paul E. Newton در علوم شناختی و محاسبات در گروه مغز و علوم شناختی BCS و عضو آزمایشگاه علوم رایانه و هوش مصنوعی. و نویسنده ارشد Vikash K. Mansinghka، محقق اصلی و رهبر پروژه محاسبات احتمالی در BCS. این تحقیق در کنفرانس سیستمهای پردازش اطلاعات عصبی در دسامبر (آذر و دی ارائه شده است.
یک انفجار از گذشته
برای توسعه این سیستم، به نام "درک صحنه سه بعدی از طریق برنامه ریزی احتمالی3DP3، محققان از مفهومی از روزهای اولیه تحقیقات هوش مصنوعی استفاده کردند که این بود که بینایی کامپیوتری را می توان "معکوس" گرافیک کامپیوتری در نظر گرفت.
گرافیک کامپیوتری بر تولید تصاویر بر اساس نمایش یک صحنه تمرکز می کند. بینایی کامپیوتری را می توان به عنوان معکوس این فرآیند در نظر گرفت. Gothoskar و همکارانش با گنجاندن آن در چارچوبی که با استفاده از برنامه نویسی احتمالی ساخته شده بود، این تکنیک را قابل یادگیری تر و مقیاس پذیرتر کردند.
برنامهنویسی احتمالی به ما امکان میدهد تا دانش خود را در مورد برخی از جنبههای جهان به گونهای بنویسیم که رایانه بتواند آن را تفسیر کند، اما در عین حال به ما امکان میدهد آنچه را که نمیدانیم، یعنی عدم قطعیت، بیان کنیم. بنابراین، سیستم میتواند به طور خودکار از دادهها یاد بگیرد و همچنین بهطور خودکار زمانی که قوانین اجرا نمیشوند، تشخیص دهد.
در این حالت، مدل با دانش قبلی در مورد صحنه های سه بعدی کدگذاری می شود. به عنوان مثال، 33DPمی داند که صحنه ها از اشیاء مختلف تشکیل شده اند و این اشیا اغلب روی هم قرار می گیرند - اما ممکن است همیشه در چنین روابط ساده ای نباشند. این مدل را قادر می سازد تا در مورد یک صحنه با عقل سلیم تر استدلال کند.
یادگیری اشکال و صحنه ها
برای تجزیه و تحلیل یک تصویر از یک صحنه، 33DP ابتدا در مورد اشیاء موجود در آن صحنه یاد میگیرد. 33DP پس از نمایش تنها پنج تصویر از یک جسم، که هر کدام از زاویه متفاوتی گرفته شدهاند، شکل جسم را میآموزد و حجمی که در فضا اشغال میکند را تخمین میزند.
«اگر من یک شی را از پنج منظر مختلف به شما نشان دهم، میتوانید نمایش خوبی از آن شی بسازید. گوتوسکار میگوید که رنگ، شکل آن را میفهمید، و میتوانید آن شی را در صحنههای مختلف تشخیص دهید.
Mansinghka می افزاید: «این داده بسیار کمتر از رویکردهای یادگیری عمیق است. به عنوان مثال، سیستم تشخیص جسم عصبی Dense Fusion به هزاران مثال آموزشی برای هر نوع شی نیاز دارد. در مقابل، 33DP فقط به تعداد کمی تصویر در هر شی نیاز دارد و عدم قطعیت را در مورد قسمتهایی از شکل هر شی که نمیداند گزارش میکند.
سیستم33DP نموداری را برای نمایش صحنه تولید میکند، جایی که هر شی یک گره است و خطوطی که گرهها را به هم متصل میکنند، نشان میدهند که کدام اشیا با یکدیگر در تماس هستند. این 33DPرا قادر میسازد تا تخمین دقیقتری از نحوه چیدمان اشیا ایجاد کند. (رویکردهای یادگیری عمیق برای تخمین موقعیت اشیا به تصاویر عمقی تکیه می کنند، اما این روش ها ساختار نموداری از روابط تماس را ایجاد نمی کنند، بنابراین تخمین های آنها دقت کمتری دارند.)
عملکرد بهتر از مدلهای پایه
محققان 33DP را با چندین سیستم یادگیری عمیق مقایسه کردند که وظیفه همه آنها تخمین وضعیت اجسام سه بعدی در یک صحنه بود.
تقریباً در همه موارد، 33DP حالتهای دقیقتری نسبت به مدلهای دیگر ایجاد میکند و زمانی که برخی از اشیاء تا حدی مانع دیگران میشوند، بسیار بهتر عمل میکنند. و 33DP فقط به دیدن پنج تصویر از هر شی نیاز داشت، در حالی که هر یک از مدلهای پایه که عملکرد بهتری داشت به هزاران تصویر برای آموزش نیاز داشت.
وقتی 33DP همراه با مدل دیگری استفاده شد، توانست دقت آن را بهبود بخشد. به عنوان مثال، یک مدل یادگیری عمیق ممکن است پیشبینی کند که یک کاسه کمی بالای میز شناور است، اما از آنجایی که 33DP از روابط تماس آگاه است و میتواند ببیند که این یک پیکربندی بعید است، میتواند با همتراز کردن کاسه اصلاحی انجام دهد. همراه با میز
برای من تعجب آور بود که می دیدم گاهی اوقات خطاهای یادگیری عمیق چقدر می تواند بزرگ باشد - تولید نمایش صحنه هایی که در آن اشیا واقعاً با آنچه مردم درک می کنند مطابقت ندارند. من همچنین شگفت آور یافتم که تنها اندکی استنتاج مبتنی بر مدل در برنامه احتمالی علی ما برای شناسایی و رفع این خطاها کافی بود. البته، هنوز راه زیادی در پیش است تا آن را به اندازه کافی سریع و قوی برای به چالش کشیدن سیستمهای بینایی بلادرنگ انجام دهیم - اما برای اولین بار، ما شاهد برنامهنویسی احتمالی و مدلهای علّی ساختاری هستیم که استحکام را نسبت به یادگیری عمیق در سه بعدی سخت بهبود میبخشند. منسینگکا به این معیارهای بینایی میگوید.
در آینده، محققان مایلند سیستم را بیشتر تحت فشار قرار دهند تا بتواند در مورد یک شی از یک تصویر یا یک فریم در یک فیلم بیاموزد و سپس بتواند آن شی را به طور قوی در صحنه های مختلف تشخیص دهد. آنها همچنین می خواهند استفاده از 33DP را برای جمع آوری داده های آموزشی برای یک شبکه عصبی کشف کنند. اغلب برای انسان ها دشوار است که به صورت دستی تصاویر را با هندسه سه بعدی برچسب گذاری کنند، بنابراین می توان از 33DP برای تولید برچسب های تصویر پیچیده تر استفاده کرد.
سیستم 33DPمدلسازی گرافیکی کم وفاداری را با استدلال عقل سلیم ترکیب میکند تا خطاهای بزرگ تفسیر صحنه را که توسط شبکههای عصبی یادگیری عمیق ایجاد میشود، تصحیح کند. این نوع رویکرد میتواند کاربرد گستردهای داشته باشد، زیرا به حالتهای شکست مهم یادگیری عمیق میپردازد. دستاورد محققان MIT همچنین نشان میدهد که چگونه فناوری برنامهنویسی احتمالاتی که قبلاً تحت برنامه برنامهنویسی احتمالی دارپا برای پیشرفت یادگیری ماشینPPAMLتوسعه یافته بود، میتواند برای حل مشکلات اصلی هوش مصنوعی در برنامه فعلی ماشین حس مشترکMCS دارپا به کار رود. مت تورک، مدیر برنامه دارپا برای برنامه عقل سلیم ماشین، که در این تحقیق شرکت نداشت، اگرچه این برنامه تا حدی بودجه این مطالعه را تأمین کرد.
مرجع3DP3 ادراک صحنه سه بعدی از طریق برنامه ریزی احتمالی" توسط نیشاد گوتوسکار، مارکو کوزومانو تاونر، بن زینبرگ، متین قوامی زاده، فالک پولوک، آستین گرت، جاشوا بی تننباوم، دن گاتفروند و ویکاش کی. علوم کامپیوتر > بینایی کامپیوتری و شناسایی الگو.
سرمایهگذاران اضافی شامل همکاری آژانس علوم و فناوری دفاع سنگاپور با کالج محاسباتی شوارتزمن MIT، مرکز محاسبات احتمالی اینتل، آزمایشگاه هوش مصنوعی واتسون MIT-IBM، بنیاد آفوریسم، و بنیاد خانواده سیگل میشوند.
های فن تک از شما دعوت می کند نظرات خود را در مورد این مقاله به اشتراک بگذارید