سیستم هوش مصنوعی جدید ماشین‌هایی را فعال می‌کند که دنیا را بیشتر شبیه انسان می‌بینند.

هوش مصنوعی 29 آذر 1400 بازدید: 305

یک رویکرد جدید "عقل سلیم" برای بینایی رایانه، هوش مصنوعی را قادر می‌سازد که صحنه‌ها را با دقت بیشتری نسبت به سایر سیستم‌ها تفسیر کند.

سیستم‌های بینایی رایانه‌ای گاهی در مورد صحنه‌ای استنباط می‌کنند که در مواجهه با عقل سلیم است. برای مثال، اگر رباتی در حال پردازش صحنه‌ای از میز شام باشد، ممکن است کاسه‌ای را که برای هر ناظر انسانی قابل مشاهده است، کاملاً نادیده بگیرد، تخمین بزند که یک بشقاب در بالای میز شناور است، یا اینکه چنگال را به‌جای نفوذ به کاسه، اشتباه درک کند. به آن تکیه داده است.
آن سیستم بینایی کامپیوتری را به یک خودروی خودران منتقل کنید و ریسک‌ها بسیار بیشتر می‌شوند - برای مثال، چنین سیستم‌هایی در تشخیص وسایل نقلیه اضطراری و عابران پیاده که از خیابان عبور می‌کنند شکست خورده‌اند.

Createsi2ndBlogIntro

برای غلبه بر این خطاها، محققان MIT چارچوبی ایجاد کرده‌اند که به ماشین‌ها کمک می‌کند جهان را بیشتر شبیه انسان ببینند. سیستم هوش مصنوعی جدید آنها برای تجزیه و تحلیل صحنه ها یاد می گیرد که اشیاء دنیای واقعی را فقط از چند عکس درک کند و صحنه ها را بر اساس این اشیاء آموخته شده درک می کند.
محققان این چارچوب را با استفاده از برنامه‌ریزی احتمالی، یک رویکرد هوش مصنوعی که سیستم را قادر می‌سازد تا اشیاء شناسایی‌شده را در مقابل داده‌های ورودی بررسی کند، برای دیدن اینکه آیا تصاویر ضبط‌شده از یک دوربین به احتمال زیاد با صحنه های کاندید مطابقت دارند یا خیر، ساخته‌اند. استنتاج احتمالی به سیستم این امکان را می دهد که استنباط کند که آیا عدم تطابق به دلیل نویز یا خطاهایی در تفسیر صحنه است باید با پردازش بیشتر تصحیح شود.
این حفاظت عقل سلیم به سیستم اجازه می‌دهد تا بسیاری از خطاهایی را که رویکردهای "یادگیری عمیق" را که برای بینایی کامپیوتر نیز استفاده شده‌اند، شناسایی و تصحیح کند. برنامه‌ریزی احتمالی همچنین امکان استنباط روابط احتمالی بین اشیاء در صحنه و استفاده از استدلال عقل سلیم در مورد این تماس‌ها را برای استنتاج موقعیت‌های دقیق‌تر برای اشیاء امکان‌پذیر می‌سازد.
«اگر در مورد روابط تماس نمی‌دانید، می‌توانید بگویید که یک شی در بالای جدول شناور است - این یک توضیح معتبر است. به عنوان انسان، برای ما واضح است که این امر از نظر فیزیکی غیر واقعی است و جسمی که بالای میز قرار گرفته است، موقعیت احتمالی شیء است. از آنجایی که سیستم استدلال ما از این نوع دانش آگاه است، می‌تواند حالت‌های دقیق‌تری را استنباط کند. این دیدگاه کلیدی این کار است.
علاوه بر بهبود ایمنی خودروهای خودران، این کار می‌تواند عملکرد سیستم‌های ادراک رایانه‌ای را که باید چیدمان‌های پیچیده اشیاء را تفسیر کند، مانند رباتی که وظیفه تمیز کردن آشپزخانه‌ای به هم ریخته را دارد، بهبود بخشد.
از نویسندگان همکار گوتوسکار می توان به مارکو کوزومانو تاونر، فارغ التحصیل اخیر دکترای EECS اشاره کرد. مهندس پژوهش بن زینبرگ; دیدار دانش آموز متین قوامی زاده; فالک پولوک، مهندس نرم افزار در آزمایشگاه هوش مصنوعی واتسون MIT-IBM. آستین گرت فارغ التحصیل اخیر کارشناسی ارشد EECS؛ دان گاتفروند، محقق اصلی آزمایشگاه هوش مصنوعی واتسون MIT-IBM. Joshua B. Tenenbaum، استاد توسعه شغلی Paul E. Newton در علوم شناختی و محاسبات در گروه مغز و علوم شناختی BCS و عضو آزمایشگاه علوم رایانه و هوش مصنوعی. و نویسنده ارشد Vikash K. Mansinghka، محقق اصلی و رهبر پروژه محاسبات احتمالی در BCS. این تحقیق در کنفرانس سیستم‌های پردازش اطلاعات عصبی در دسامبر (آذر و دی ارائه شده است.
یک انفجار از گذشته
برای توسعه این سیستم، به نام "درک صحنه سه بعدی از طریق برنامه ریزی احتمالی3DP3، محققان از مفهومی از روزهای اولیه تحقیقات هوش مصنوعی استفاده کردند که این بود که بینایی کامپیوتری را می توان "معکوس" گرافیک کامپیوتری در نظر گرفت.
گرافیک کامپیوتری بر تولید تصاویر بر اساس نمایش یک صحنه تمرکز می کند. بینایی کامپیوتری را می توان به عنوان معکوس این فرآیند در نظر گرفت. Gothoskar و همکارانش با گنجاندن آن در چارچوبی که با استفاده از برنامه نویسی احتمالی ساخته شده بود، این تکنیک را قابل یادگیری تر و مقیاس پذیرتر کردند.

common sense1

برنامه‌نویسی احتمالی به ما امکان می‌دهد تا دانش خود را در مورد برخی از جنبه‌های جهان به گونه‌ای بنویسیم که رایانه بتواند آن را تفسیر کند، اما در عین حال به ما امکان می‌دهد آنچه را که نمی‌دانیم، یعنی عدم قطعیت، بیان کنیم. بنابراین، سیستم می‌تواند به طور خودکار از داده‌ها یاد بگیرد و همچنین به‌طور خودکار زمانی که قوانین اجرا نمی‌شوند، تشخیص دهد.
در این حالت، مدل با دانش قبلی در مورد صحنه های سه بعدی کدگذاری می شود. به عنوان مثال، 33DPمی داند که صحنه ها از اشیاء مختلف تشکیل شده اند و این اشیا اغلب روی هم قرار می گیرند - اما ممکن است همیشه در چنین روابط ساده ای نباشند. این مدل را قادر می سازد تا در مورد یک صحنه با عقل سلیم تر استدلال کند.
یادگیری اشکال و صحنه ها
برای تجزیه و تحلیل یک تصویر از یک صحنه، 33DP ابتدا در مورد اشیاء موجود در آن صحنه یاد می‌گیرد. 33DP پس از نمایش تنها پنج تصویر از یک جسم، که هر کدام از زاویه متفاوتی گرفته شده‌اند، شکل جسم را می‌آموزد و حجمی که در فضا اشغال می‌کند را تخمین می‌زند.
«اگر من یک شی را از پنج منظر مختلف به شما نشان دهم، می‌توانید نمایش خوبی از آن شی بسازید. گوتوسکار می‌گوید که رنگ، شکل آن را می‌فهمید، و می‌توانید آن شی را در صحنه‌های مختلف تشخیص دهید.
Mansinghka می افزاید: «این داده بسیار کمتر از رویکردهای یادگیری عمیق است. به عنوان مثال، سیستم تشخیص جسم عصبی Dense Fusion به هزاران مثال آموزشی برای هر نوع شی نیاز دارد. در مقابل، 33DP فقط به تعداد کمی تصویر در هر شی نیاز دارد و عدم قطعیت را در مورد قسمت‌هایی از شکل هر شی که نمی‌داند گزارش می‌کند.
سیستم33DP نموداری را برای نمایش صحنه تولید می‌کند، جایی که هر شی یک گره است و خطوطی که گره‌ها را به هم متصل می‌کنند، نشان می‌دهند که کدام اشیا با یکدیگر در تماس هستند. این 33DPرا قادر می‌سازد تا تخمین دقیق‌تری از نحوه چیدمان اشیا ایجاد کند. (رویکردهای یادگیری عمیق برای تخمین موقعیت اشیا به تصاویر عمقی تکیه می کنند، اما این روش ها ساختار نموداری از روابط تماس را ایجاد نمی کنند، بنابراین تخمین های آنها دقت کمتری دارند.)
عملکرد بهتر از مدل‌های پایه
محققان 33DP را با چندین سیستم یادگیری عمیق مقایسه کردند که وظیفه همه آنها تخمین وضعیت اجسام سه بعدی در یک صحنه بود.
تقریباً در همه موارد، 33DP حالت‌های دقیق‌تری نسبت به مدل‌های دیگر ایجاد می‌کند و زمانی که برخی از اشیاء تا حدی مانع دیگران می‌شوند، بسیار بهتر عمل می‌کنند. و 33DP فقط به دیدن پنج تصویر از هر شی نیاز داشت، در حالی که هر یک از مدل‌های پایه که عملکرد بهتری داشت به هزاران تصویر برای آموزش نیاز داشت.
وقتی 33DP همراه با مدل دیگری استفاده شد، توانست دقت آن را بهبود بخشد. به عنوان مثال، یک مدل یادگیری عمیق ممکن است پیش‌بینی کند که یک کاسه کمی بالای میز شناور است، اما از آنجایی که 33DP از روابط تماس آگاه است و می‌تواند ببیند که این یک پیکربندی بعید است، می‌تواند با هم‌تراز کردن کاسه اصلاحی انجام دهد. همراه با میز
برای من تعجب آور بود که می دیدم گاهی اوقات خطاهای یادگیری عمیق چقدر می تواند بزرگ باشد - تولید نمایش صحنه هایی که در آن اشیا واقعاً با آنچه مردم درک می کنند مطابقت ندارند. من همچنین شگفت آور یافتم که تنها اندکی استنتاج مبتنی بر مدل در برنامه احتمالی علی ما برای شناسایی و رفع این خطاها کافی بود. البته، هنوز راه زیادی در پیش است تا آن را به اندازه کافی سریع و قوی برای به چالش کشیدن سیستم‌های بینایی بلادرنگ انجام دهیم - اما برای اولین بار، ما شاهد برنامه‌نویسی احتمالی و مدل‌های علّی ساختاری هستیم که استحکام را نسبت به یادگیری عمیق در سه بعدی سخت بهبود می‌بخشند. منسینگکا به این معیارهای بینایی میگوید.
در آینده، محققان مایلند سیستم را بیشتر تحت فشار قرار دهند تا بتواند در مورد یک شی از یک تصویر یا یک فریم در یک فیلم بیاموزد و سپس بتواند آن شی را به طور قوی در صحنه های مختلف تشخیص دهد. آنها همچنین می خواهند استفاده از 33DP را برای جمع آوری داده های آموزشی برای یک شبکه عصبی کشف کنند. اغلب برای انسان ها دشوار است که به صورت دستی تصاویر را با هندسه سه بعدی برچسب گذاری کنند، بنابراین می توان از 33DP برای تولید برچسب های تصویر پیچیده تر استفاده کرد.
سیستم 33DPمدل‌سازی گرافیکی کم وفاداری را با استدلال عقل سلیم ترکیب می‌کند تا خطاهای بزرگ تفسیر صحنه را که توسط شبکه‌های عصبی یادگیری عمیق ایجاد می‌شود، تصحیح کند. این نوع رویکرد می‌تواند کاربرد گسترده‌ای داشته باشد، زیرا به حالت‌های شکست مهم یادگیری عمیق می‌پردازد. دستاورد محققان MIT همچنین نشان می‌دهد که چگونه فناوری برنامه‌نویسی احتمالاتی که قبلاً تحت برنامه برنامه‌نویسی احتمالی دارپا برای پیشرفت یادگیری ماشینPPAMLتوسعه یافته بود، می‌تواند برای حل مشکلات اصلی هوش مصنوعی در برنامه فعلی ماشین حس مشترکMCS دارپا به کار رود. مت تورک، مدیر برنامه دارپا برای برنامه عقل سلیم ماشین، که در این تحقیق شرکت نداشت، اگرچه این برنامه تا حدی بودجه این مطالعه را تأمین کرد.
مرجع3DP3 ادراک صحنه سه بعدی از طریق برنامه ریزی احتمالی" توسط نیشاد گوتوسکار، مارکو کوزومانو تاونر، بن زینبرگ، متین قوامی زاده، فالک پولوک، آستین گرت، جاشوا بی تننباوم، دن گاتفروند و ویکاش کی. علوم کامپیوتر > بینایی کامپیوتری و شناسایی الگو.
سرمایه‌گذاران اضافی شامل همکاری آژانس علوم و فناوری دفاع سنگاپور با کالج محاسباتی شوارتزمن MIT، مرکز محاسبات احتمالی اینتل، آزمایشگاه هوش مصنوعی واتسون MIT-IBM، بنیاد آفوریسم، و بنیاد خانواده سیگل می‌شوند.