Статистические гарантии в программном обеспечении анализа данных и визуализации

Рассмотрено то, что статистики называют «многократной ошибкой гипотезы». Проблема – по существу это: больше вопросов, которые кто-то задает набора данных, они более вероятно, нужно наткнуться на что-то, что похоже на реальное открытие, но является на самом деле просто случайным колебанием набора данных.

Команда исследователей из Университета Брауна работает над программным обеспечением, чтобы помочь сражаться с той проблемой. На этой неделе на конференции SIGMOD2017 в Чикаго, они представили новую систему под названием QUDE, который добавляет статистические гарантии в реальном времени к интерактивным системам исследования данных, чтобы помочь уменьшить ложные открытия.«Все больше людей использует программное обеспечение исследования данных как Таблица и Искра, но большинство тех пользователей не эксперты в статистике или машинном обучении», сказал Тим Крэска, доцент информатики в Брауне и соавторе исследования. «Есть много статистических ошибок, которые Вы можете сделать, таким образом, мы развиваем методы, которые помогают людям избежать их».Многочисленная гипотеза, проверяющая ошибку, является известной проблемой в статистике.

В эру больших данных и интерактивного исследования данных, проблема пришла к возобновленному выдающемуся положению, которое говорит Крэска.«Эти инструменты делают настолько легким подвергнуть сомнению данные», сказал он. «Вы можете легко проверить 100 гипотез через час, используя эти инструменты визуализации. Не исправляя для многократной ошибки гипотезы, возможности очень хороши, что Вы собираетесь столкнуться с корреляцией, это абсолютно поддельное».

Есть известные статистические методы для контакта с проблемой. Большинство тех методов включает наладку уровня статистического значения, требуемого утверждать конкретную гипотезу на основе того, сколько гипотез было проверено всего.

Как количество испытательных увеличений гипотезы, уровень значения должен был судить открытие как действительные увеличения также.Но эти методы исправления – почти все после совершения регуляторы. Они – инструменты, которые используются в конце научно-исследовательской работы после того, как все тестирование гипотезы завершено, который не идеален для интерактивного исследования данных в реальном времени.«Мы не хотим ждать до конца сессии, чтобы сказать людям, если их результаты действительны», сказал Ила Апфэл, преподаватель информатики в соавторе исследования и Брауне. «Мы также не хотим иметь саму системную перемену, говоря Вам однажды на сессии, что что-то значительно только, чтобы сказать Вам позже – после того, как Вы проверили больше гипотез – что Ваш ранний результат больше не значительный».

Оба из тех сценариев – возможное использование наиболее распространенных многочисленных методов исправления гипотезы. Таким образом, исследователи разработали различный метод для этого проекта, который позволяет им контролировать риск ложного открытия, поскольку тесты гипотезы продолжаются.«Идея состоит в том, что у Вас есть бюджет того, сколько ложного риска открытия Вы можете взять на себя, и мы обновляем тот бюджет в режиме реального времени, поскольку пользователь взаимодействует с данными», сказал Апфэл. «Мы также принимаем во внимание пути, которыми пользователь мог бы исследовать данные.

Понимая последовательность их вопросов, мы можем приспособить наш алгоритм и изменить способ, которым мы ассигнуем бюджет».Для пользователей опыт подобен использованию любого программного обеспечения визуализации данных, только с обратной связью, на которую наносят цветную маркировку, которая дает информацию о статистическом значении.«Зеленый означает, что визуализация представляет нахождение, что это значительно», сказал Крэска. «Если это красно, который означает быть осторожным; это находится на шаткой статистической земле».

Система не может гарантировать абсолютную точность, говорят исследователи. Никакая система не может. Но в ряде пользовательских тестов, используя синтетические данные, для которых реальные и поддельные корреляции были основанием-truthed, исследователи показали, что система действительно сокращала количество ложных сделанных пользователей открытий.Исследователи считают эту работу шагом к системе исследования и визуализации данных, которая полностью объединяет номер люкс статистических гарантий.

«Наша цель состоит в том, чтобы сделать науку данных более доступной для более широкого ряда пользователей», сказал Крэска. «Занятие многократной проблемой гипотезы будет важным, но также очень трудно сделать. Мы рассматриваем данную статью как хороший первый шаг».