Компьютерные системы предсказывают ответы объектов физическим силам: помощь мая объясняет, как люди делают то же самое

Представляя их работу над Конференцией этого года по Нервным Системам Обработки информации, Tenenbaum и один из его студентов, Джиэджуна Ву, являются соавторами на четырех бумагах, которые исследуют фундаментальные познавательные способности, которых умный агент требует, чтобы провести мир: различение отличных объектов и выведение, как они отвечают физическим силам.Строя компьютерные системы, которые начинают приближать эти мощности, исследователи полагают, что они могут помочь ответить на вопросы о том, что люди ресурсов обработки информации используют в какой этапы развития. По пути исследователи могли бы также произвести некоторое понимание, полезное для автоматизированных систем видения.«Общая тема здесь действительно учится чувствовать физику», говорит Тененбаум. «Это начинается с наблюдения полных 3D форм объектов и многократных объектов в сцене, наряду с их физическими свойствами, как масса и трение, затем рассуждая о том, как эти объекты будут перемещаться со временем.

Четыре бумаги Джиэджуна обращаются к этому целому пространству. Взятый вместе, мы начинаем быть в состоянии построить машины, которые захватывают все больше основного понимания людей материального мира».Три из работ касаются с выведением информации о физической структуре объектов, и от визуальных и от слуховых данных. Четвертые соглашения с предсказанием, как объекты будут вести себя на основе тех данных.

Улица с двусторонним движениемЧто-то еще, что объединяет все четыре бумаги, является их необычным подходом к машинному обучению, технике, в которой компьютеры учатся выполнять вычислительные задачи, анализируя огромные наборы данных тренировки. В типичной системе машинного обучения маркированы данные тренировки: Человеческие аналитики, скажем, определят объекты в визуальной сцене или расшифруют слова разговорного предложения.

Система пытается изучить то, что особенности данных коррелируют с тем, какие этикетки, и оценено о том, как хорошо это маркирует ранее невидимые данные.В Ву и новых бумагах Тененбаума, система обучена вывести физическую модель мира – 3D формы объектов, которые главным образом скрыты от представления, например. Но тогда это работает назад, используя модель, чтобы повторно синтезировать входные данные, и его работа оценена о том, как хорошо восстановленные данные соответствуют оригинальным данным.Например, использование визуальных изображений, чтобы построить 3D модель объекта в сцене требует снимания любых объектов закрытия; отфильтровывая смешивание визуальных структур, размышлений и теней; и выводя форму невидимых поверхностей.

Однажды Ву и система Тененбаума построил такую модель, однако, это вращает его в космосе и включает визуальные структуры назад, пока это не может приблизить входные данные.Действительно, две из четырех бумаг исследователей решают сложную проблему выведения 3D моделей от визуальных данных.

На тех бумагах к ним присоединяются четыре других исследователя MIT, включая Уильяма Фримена, профессора Перкинса Электротехники и Информатики, и коллегами в DeepMind, Университете ShanghaiTech и Шанхайском университете Цзяотун.Разделяй и властвуй.Система исследователей основана на влиятельных теориях нейробиолога MIT Дэвида Марра, который умер в 1980 в трагически молодом возрасте 35. Марр выдвинул гипотезу, что в интерпретации визуальной сцены, мозг сначала создает то, что он назвал 2.5-D эскизом объектов, которые это содержало – представление просто тех поверхностей объектов, стоящих перед зрителем.

Затем на основе 2.5-D эскиза – не сырой визуальной информации о сцене – мозг выводит полные, трехмерные формы объектов.«Обе проблемы очень трудны, но есть хороший способ распутать их», говорит Ву. «Вы можете сделать их по одному, таким образом, Вы не должны иметь дело с ними обоими в то же время, который еще более тверд».Ву и система его коллег должны быть обучены на данных, которые включают оба визуальных изображения и 3D модели объектов, которые изображают изображения.

Строительство точных 3D моделей объектов, изображенных на реальных фотографиях, было бы предельно трудоемким, так первоначально, исследователи обучают свою систему, используя синтетические данные, в которых визуальное изображение произведено из 3D модели, а не наоборот. Процесс создания данных похож на процесс создания компьютерного мультфильма.Как только система была обучена на синтетических данных, однако, это может быть точно настроено, используя реальные данные.

Поэтому его окончательный исполнительный критерий – точность, с которой это восстанавливает входные данные. Это все еще строит 3D модели, но они не должны сравниваться с построенными человеком моделями для исполнительной оценки.В оценке их системы исследователи использовали меру, названную пересечением по союзу, который распространен в области.

На той мере их система выигрывает у своих предшественников. Но данный счет пересечения по союзу оставляет много комнаты для местного изменения в гладкости и форме 3D модели. Таким образом, Ву и его коллеги также провели качественное исследование преданности моделей исходным изображениям.

Из участников исследования 74 процента предпочли реконструкции новой системы тем из ее предшественников.Все то падение

В другом из Ву и бумаг Тененбаума, на которых к ним присоединяется снова Фримен и исследователями в MIT, Кембриджском Университете и Университете ShanghaiTech, они обучают систему анализировать аудиозаписи пропускаемого объекта, выводить свойства, такие как форма объекта, ее состав и высота, от которой это упало. Снова, система обучена произвести абстрактное представление объекта, который в свою очередь она использует, чтобы синтезировать звук, который объект сделал бы, когда пропущено из особой высоты. Работа системы оценена на подобии между синтезируемым звуком и исходным звуком.

Наконец, в их четвертой статье, Ву, Tenenbaum, Почетный гражданин, и коллеги в DeepMind и Оксфордском университете описывают систему, которая начинает моделировать интуитивное понимание людей физических сил, действующих на объекты в мире. Данная статья берет, где предыдущие бумаги кончают: Это предполагает, что система уже вывела 3D формы объектов.Те формы просты: шары и кубы. Исследователи обучили свою систему выполнять две задачи.

Первое должно оценить, что скорости шаров, перемещающихся на бильярдном столе и, на той основе, предсказывают, как они будут вести себя после столкновения. Второе должно проанализировать статическое изображение сложенных кубов и определить, упадут ли они и, если так, где кубы приземлятся.

Ву развивал представительный язык, он называет сцену XML, который может количественно характеризовать относительные положения объектов в визуальной сцене. Система сначала учится описывать входные данные на том языке.

Это тогда кормит тем описанием что-то названное двигателем физики, который моделирует физические силы, действующие на представленные объекты. Двигатели физики – главный продукт обеих компьютерной анимации, где они производят движение одежды, падающих объектов, и т.п., и научного вычисления, где они используются для крупномасштабных физических моделирований.После того, как двигатель физики предсказал движения шаров и коробок, та информация питается графический двигатель, продукция которого, снова, по сравнению с исходными изображениями.

Как с работой над визуальной дискриминацией, исследователи обучают свою систему на синтетических данных прежде, чем усовершенствовать его с реальными данными.В тестах система исследователей снова выиграла у своих предшественников.

На самом деле, в некоторых тестах, включающих бильярдные шары, это часто выигрывало у человеческих наблюдателей также.