Новые алгоритмы, чтобы обучить роботы

ARL и исследователи UT рассмотрели конкретный случай, где человек обеспечивает обратную связь в реальном времени в форме критического анализа. Сначала введенный сотрудником доктором Питером Стоуном, преподавателем в Техасском университете в Остине, наряду с его бывшим докторантом, Брэдом Ноксом, как УКРОТИТЕЛЬ или Обучение Агент Вручную через Оценочное Укрепление, команда ARL/UT разработала новый алгоритм под названием Глубокий УКРОТИТЕЛЬ.

Это – расширение УКРОТИТЕЛЯ, который использует глубоко изучение – класс алгоритмов машинного обучения, которые свободно вдохновлены мозгом предоставить роботу способность изучить, как выполнить задачи, рассмотрев видео потоки в короткий срок с человеческим тренером.По словам армейского исследователя доктора Гарретта Варнелла, команда рассмотрела ситуации, где человек учит агента, как вести себя, наблюдая его и обеспечение критического анализа, например, «хорошая работа» или «безнадежное дело» – подобный пути человек могли бы обучить собаку делать уловку.

Варнелл сказал, что исследователи расширили более раннюю работу в этой области, чтобы позволить этот тип обучения роботам или компьютерным программам, которые в настоящее время видят мир через изображения, который является важным первым шагом в проектировании изучения агентов, которые могут действовать в реальном мире.Много текущих методов в искусственном интеллекте требуют, чтобы роботы взаимодействовали с их средой в течение длительных периодов времени, чтобы изучить, как оптимально выполнить задачу. Во время этого процесса агент мог бы выполнить действия, которые могут не только быть неправильными, как робот, сталкивающийся со стеной, например, но катастрофический как робот, убегающий сторона утеса.

Варнелл сказал, что помощь от людей ускорит вещи для агентов и поможет им избежать потенциальных ловушек.Как первый шаг, исследователи продемонстрировали успех Глубокого УКРОТИТЕЛЯ при помощи его с 15 минутами обеспеченной человеком обратной связи, чтобы обучить агента выступать лучше, чем люди на игре Atari в боулинг – задача, которая оказалась трудной для даже современных методов в искусственном интеллекте. Глубокий УКРОТИТЕЛЬ обучался, агенты показали сверхчеловеческую работу, besting и их тренеры-любители и, в среднем, опытный человеческий игрок Atari.

В течение следующего одного – двух лет исследователи интересуются исследованием применимости их новейшей техники в более широком множестве окружающей среды: например, видеоигры кроме Боулинга Atari и дополнительной окружающей среды моделирования, чтобы лучше представлять типы агентов и окружающей среды нашли, выставляя роботы в реальном мире.Их работа будет издана на слушаниях AAAI 2018 конференции.

«Армия будущего будет состоять из Солдат и автономных товарищей по команде, работающих бок о бок», сказал Варнелл. «В то время как оба человека и автономные агенты могут быть обучены заранее, команду неизбежно попросят выполнить задачи, например, поиск и спасение или наблюдение, в новой окружающей среде, которую они не видели прежде. В этих ситуациях люди удивительно хороши в обобщении их обучения, но действующие искусственно умные агенты не».Глубокий УКРОТИТЕЛЬ – первый шаг в линии исследования, которое предполагают ее исследователи, позволит более успешные команды человеческой автономии в армии.

В конечном счете они хотят автономных агентов, которые могут быстро и безопасно учиться от их человеческих товарищей по команде в большом разнообразии стилей, таких как демонстрация, инструкция по естественному языку и критический анализ.