Один метод машинного обучения, используемый в AI, является изучением укрепления, где агенты вознаграждены за выполнение определенных действий – техника, одолженная от бихевиоризма. Применяя эту технику к AI, инженеры используют систему пунктов, где машины зарабатывают очки, выполняя правильные действия.
Например, робот может заработать один пункт для того, чтобы правильно сложить ряд коробок и другого пункта для восстановления коробки снаружи. Но если, в дождливый день, например, человеческий оператор прервет робот, поскольку он направляется снаружи, чтобы собрать коробку, робот узнает, что это – более обеспеченное пребывание в закрытом помещении, укладка коробок и приобретение как можно больше пунктов. «Проблема не состоит в том, чтобы остановить робот, а скорее программировать его так, чтобы прерывание не изменяло свой процесс обучения – и не побуждало его оптимизировать свое поведение таким способом как, чтобы не останавливаться», говорит Гуеррэоуи.От единственной машины до всей сети AIВ 2016 исследователи от Google DeepMind и Института Будущего человечества в Оксфордском университете разработали протокол изучения, который препятствует тому, чтобы машины извлекли уроки из прерываний и таким образом стали неконтролируемыми.
Например, в примере выше, вознаграждение робота – число очков это зарабатывает – был бы нагружен шансом дождя, дав роботу больший стимул восстановить коробки снаружи. «Здесь решение довольно просто, потому что мы имеем дело со всего одним роботом», говорит Гуеррэоуи.Однако AI все больше и больше используется в заявлениях, включающих десятки машин, таких как самоходные автомобили на дороге или беспилотники в воздухе. «Это делает вещи намного более сложными, потому что машины начинают учиться друг от друга – особенно в случае прерываний.
Они извлекают уроки не только из того, как они прерваны индивидуально, но также и из того, как другие прерваны», говорят Александр Маурер, один из авторов исследования. Хэдрин Хендриккс, другой исследователь, вовлеченный в исследование, дает пример двух самоходных автомобилей друг после друга на узкой дороге, куда они не могут встретить друг друга. Они должны добраться до своего места назначения как можно быстрее – не нарушая транспортных законов – и люди в автомобилях могут принять контроль в любое время.
Если человек в первом автомобиле будет часто тормозить, второй автомобиль приспособит свое поведение каждый раз и в конечном счете запутается относительно того, когда тормозить, возможно оставаясь слишком близким к первому автомобилю или ездя слишком медленно.Предоставление людям последнего словаЭта сложность – то, что исследователи EPFL стремятся решать через «безопасный interruptibility». Их впечатляющий метод позволяет людям прервать процессы обучения AI, когда необходимый – удостоверяясь, что прерывания не изменяют способ, которым учатся машины. «Проще говоря, мы добавляем ‘упущение’ механизмов к алгоритмам изучения, которые по существу удаляют части памяти машины.
Это отчасти похоже на устройство вспышки в Людях в черном», говорит Эль Махди Эль Мамди, другой автор исследования. Другими словами, исследователи изменили изучение машин и премиальную систему так, чтобы это не было затронуто прерываниями. Это похоже, если родитель наказывает одного ребенка, который не затрагивает процессы обучения других детей в семье.«Мы работали над существующими алгоритмами и показали, что безопасный interruptibility может работать, неважно, насколько сложный система AI, количество роботов, включенных, или тип прерывания.
Мы могли использовать его с Терминатором и все еще иметь те же самые результаты», говорит Маурер.Сегодня, автономные машины, которые используют укрепление, учащееся, не распространены. «Эта система работает действительно хорошо, когда последствия делания ошибок незначительны», говорит El Mhamdi. «В полной автономии и без человеческого наблюдения, это не могло использоваться в самоходных автобусах в Сьоне, например, из соображений безопасности. Однако мы могли моделировать автобусы и город Сьон и управлять алгоритмом AI, который награждает и вычитает пункты, как система автобуса узнает.
Это – вид моделирования, это делается в Tesla, например. Как только система подверглась достаточному количеству этого изучения, мы могли установить предварительно обученный алгоритм в самоходном автомобиле с низким темпом исследования, поскольку это будет допускать более широкое использование».
И, конечно, удостоверяясь люди все еще говорят последнее слово.