Программное обеспечение Scanpy обрабатывает огромные суммы данных единственной клетки

«Это об анализе данных экспрессии гена большого количества отдельных клеток», объясняет ведущий автор Алекс Уолф из Института Вычислительной Биологии (ICB) в Гельмгольце Центруме Мунхене. Он развивал Scanpy вместе со своим коллегой Филиппом Анджерером в Machine Learning Group Профессора доктор доктор Фабиан Тейс. В дополнение к его положению в Гельмгольце Центруме Тейс – также преподаватель математического моделирования биологических систем в Мюнхенском техническом университете. «Новые технические достижения производят несколько порядков величины больше данных с соответственно большим информационным содержанием», говорит Тейс. «Однако исторически развитая инфраструктура программного обеспечения для анализа экспрессии гена просто не была разработана, чтобы справиться с новыми проблемами. Новые аналитические методы поэтому необходимы».

Погоня за Атласом Клетки человекаПо словам Тейса, главная международная научно-исследовательская работа могла также извлечь выгоду из программного обеспечения. Команда международных ученых собирает справочную базу данных, названную Атласом Клетки человека, который держит данные по активности гена всех типов клетки человека. «Для этого проекта, и в растущем числе других проектов, в которых объединены базы данных, важно иметь масштабируемое программное обеспечение», говорит Тейс. Поэтому не удивительно, что Scanpy в настоящее время – кандидат на помощь проанализировать Атлас Клетки человека.

«Публикация Scanpy отмечает первое программное обеспечение, которое позволяет всесторонний анализ больших наборов данных экспрессии гена с широким диапазоном машинного обучения и статистических методов», объясняет Уолф, описывая успех. «Программное обеспечение уже используется многими группами во всем мире, особенно в Широком Институте Гарвардского университета и Массачусетского технологического института, MIT».Технологически, применение – новаторское развитие: Принимая во внимание, что программы биостатистики традиционно написаны на языке программирования R, Скэнпи основан на языке Пайтона, доминирующем языке в сообществе машинного обучения.

Другая новая возможность – то, что основанные на графе алгоритмы лежат в основе Скэнпи. В отличие от обычного подхода оценки клеток как пункты в системе координат в пространстве экспрессии гена, алгоритмы используют подобную графу систему координат.

Вместо того, чтобы характеризовать единственную клетку стоимостью выражения для тысяч генов, система просто характеризует клетки, опознавая их самых близких соседей – очень как связи в социальных сетях. На самом деле, чтобы определить типы клетки, Скэнпи использует те же самые алгоритмы, как Facebook делает для идентификации сообществ.


FBCONSTANTA.RU