Система могла позволить тысячам исследователей способствовать проектам анализа данных: сетевая система автоматически оценивает предложения от обширных ученых данных

Исследователи MIT разработали новый инструмент сотрудничества, назвали FeatureHub, предназначенный, чтобы сделать идентификацию особенности более эффективной и эффективной. С FeatureHub ученые данных и эксперты по конкретным темам могли войти в центральное место и провести час или два рассмотрения проблемы и предложение особенностей. Программное обеспечение тогда проверяет бесчисленные комбинации особенностей против целевых данных, чтобы определить, которые являются самыми полезными для данной прогнозирующей задачи.

В тестах исследователи приняли на работу 32 аналитика из научного опыта данных, которые провели пять часов каждый с системой, ознакомляя себя с ним и используя его, чтобы предложить, чтобы кандидат показал для каждой из двух проблем науки данных.Прогнозирующие модели, созданные системой, были проверены против представленных соревнованию по науке данных под названием Kaggle. Записи Kaggle были выиграны в масштабе на 100 пунктов, и модели FeatureHub были в трех и пяти пунктах записей победы для этих двух проблем.Но где выигрывающие вершину записи были результатом недель или даже месяцев работы, записи FeatureHub были произведены в течение дней.

И в то время как 32 сотрудника на единственном научном проекте данных много по сегодняшним стандартам, Мике Смиту, у аспиранта MIT в электротехнике и информатике, кто помог привести проект, есть намного большие стремления.FeatureHub – как его имя – был вдохновлен GitHub, хранилищем онлайн открытого источника, программируя проекты, некоторые из которых привлекли тысячи участников. Смит надеется, что FeatureHub мог бы когда-нибудь достигнуть подобного масштаба.«Я действительно надеюсь, что мы можем облегчить наличие тысячи людей, работающих над единственным решением для предсказания, где дорожно-транспортные происшествия, скорее всего, ударят в Нью-Йорке или предсказание, какие пациенты в больнице, скорее всего, потребуют некоторого медицинского вмешательства», говорит он. «Я думаю, что понятие крупной и открытой науки данных может быть действительно усилено для областей, где есть сильное социальное воздействие, но не обязательно единственная рентабельная или правительственная организация, которая координирует ответы».

Смит и его коллеги представили бумажное описание FeatureHub на Международной конференции IEEE по вопросам Науки Данных и Продвинутой Аналитики. Его соавторы на бумаге – его советник по вопросам тезиса, Кэльян Вирамачейнни, основной исследователь в Лаборатории MIT для получения информации и Систем Решения и Роя Уэджа, который начал работать с группой Вирамачейнни как студент MIT и является теперь разработчиком программного обеспечения в Feature Labs, научной компании данных на основе работы группы.Пользовательский интерфейс FeatureHub построен сверху общего номера люкс программного обеспечения анализа данных, названного Ноутбуком Jupyter, и оценка наборов признаков выполнена стандартными пакетами программ машинного обучения. Особенности должны быть написаны на языке программирования Пайтона, но их дизайн должен следовать за шаблоном, который намеренно сохраняет синтаксис простым.

Типичная особенность могла бы потребовать между пятью и 10 строками кодекса.Исследователи MIT написали кодекс, который посредничает между другими пакетами программ и управляет данными, объединяя особенности, представленные многими различными пользователями и отслеживая те коллекции особенностей, которые выступают лучше всего на конкретных задачах анализа данных.В прошлом группа Вирамачейнни разработала программное обеспечение, которое автоматически производит особенности, выводя отношения между данными из способа, которым они организованы. Когда та организационная информация отсутствует, однако, подход менее эффективный.

Однако, Смит воображает, автоматический синтез особенности мог использоваться вместе с FeatureHub, получать проекты началось, прежде чем волонтеры начали способствовать им, экономя трудную работу перечисления очевидных особенностей и увеличения лучше всего выступающих наборов особенностей, внесенных людьми.Найдите отчет «К совместной науке данных» онлайн по http://dai.lids.mit.edu/featurehub-smith.pdf


FBCONSTANTA.RU