Переломный момент: метагеномное объединение в кластеры, приведенное в действие суперкомпьютерами: Алгоритм позволяет биологам использовать возможности в широком масштабе параллельных суперкомпьютеров понять геномный 'поток данных'

В биологии подобные группирующие граф алгоритмы могут использоваться, чтобы понять белки, которые выполняют большинство функций жизни. Считается, что одно только человеческое тело содержит приблизительно 100 000 различных типов белка, и почти все биологические задачи – от вываривания до неприкосновенности – происходят, когда эти микроорганизмы взаимодействуют друг с другом.

Лучшее понимание этих сетей могло помочь исследователям определить эффективность препарата или определить потенциальные лечения множества болезней.Сегодня, передовые технологии высокой пропускной способности позволяют исследователям захватывать сотни миллионов белков, генов и другие клеточные компоненты сразу и в диапазоне условий окружающей среды. Группирующиеся алгоритмы тогда применены к этим наборам данных, чтобы определить образцы и отношения, которые могут указать на структурные и функциональные общие черты. Хотя эти методы широко использовались больше десятилетия, они не могут не отставать от потока биологических данных, производимых программами упорядочения следующего поколения и микромножествами.

На самом деле очень немного существующих алгоритмов могут сгруппировать биологическую сеть, содержащую миллионы узлов (белки) и края (связи).Вот почему команда исследователей от Национальной лаборатории Лоуренса Беркли (САМКИ) Министерства энергетики (Berkeley Lab) и Joint Genome Institute (JGI) проявила один из самых популярных подходов объединения в кластеры в современной биологии – Маркове, Группирующем (MCL) алгоритм – и изменила его, чтобы бежать быстро, эффективно и в масштабе на суперкомпьютерах распределенной памяти.

В прецеденте их высокоэффективный алгоритм – названный HipMCL – достиг ранее невозможного подвига: объединение в кластеры большой биологической сети, содержащей приблизительно 70 миллионов узлов и 68 миллиардов краев за несколько часов, используя приблизительно 140 000 ядер процессора на Национальном энергетическом Исследовании суперкомпьютер Cori Научного Вычислительного центра (NERSC). Работа, описывающая эту работу, была недавно опубликована в журнале Nucleic Acids Research.

«Реальная выгода HipMCL – своя способность сгруппировать крупные биологические сети, которые было невозможно сгруппировать с существующим программным обеспечением MCL, таким образом позволив нам определить и характеризовать новое функциональное пространство, существующее в микробных сообществах», говорит Никос Кирпайдс, который возглавляет Научные усилия по Данным о Микробиоме JGI и Прокариота Супер Программа и является соавтором на бумаге. «Кроме того, мы можем сделать это, не жертвуя ни одной чувствительностью или точностью оригинального метода, который всегда является самой сложной задачей в подобных усилиях по вычислению».«Когда наши данные растут, становится еще более обязательно, что мы перемещаем наши инструменты в высокоэффективные вычислительные среды», добавляет он. «Если Вы должны были спросить меня, насколько большой белок – пространство?

Правда, мы действительно не знаем, потому что до сих пор у нас не было вычислительных аппаратов, чтобы эффективно сгруппировать все наши геномные данные и исследовать функциональную темную материю».В дополнение к достижениям в технологии сбора данных исследователи все больше и больше решили разделить свои данные в базах данных сообщества как Интегрированные Микробные Геномы & Микробиомы (IMG/M) система, которая была разработана через старое десятилетиями сотрудничество между учеными из Computational Research Division (CRD) JGI and Berkeley Lab.

Но позволяя пользователям сделать сравнительный анализ и исследовать функциональные возможности микробных сообществ на основе их метагеномной последовательности, инструменты сообщества как IMG/M также способствуют взрыву данных в технологии.Как случайное лидерство прогулок к вычислению узких мест

Чтобы сжать этот поток данных, исследователи полагаются на кластерный анализ или объединение в кластеры. Это – по существу задача группировки объектов так, чтобы пункты в той же самой группе (группа) были более подобными, чем те в других группах. Больше десятилетия специалисты в области вычислительной биологии одобрили MCL для объединения в кластеры белков общими чертами и взаимодействиями.«Одна из причин, что MCL был популярен среди специалистов в области вычислительной биологии, – то, что это – относительно свободный параметр; пользователи не должны устанавливать тонну параметров получать точные результаты, и это удивительно стабильно к маленьким изменениям в данных.

Это важно, потому что Вам, возможно, придется пересмотреть подобие между точками данных, или Вам, возможно, придется исправить для небольшой ошибки измерения в Ваших данных. В этих случаях Вы не хотите, чтобы Ваши модификации изменили анализ с 10 групп до 1 000 групп», заявляет Айдин Buluc, ученый CRD и один из соавторов газеты.Но, он добавляет, вычислительное сообщество биологии сталкивается с вычислительным узким местом, потому что инструмент главным образом работает на единственном компьютерном узле, в вычислительном отношении дорогой, чтобы выполнить и имеет большой объем потребляемой памяти – все из которых ограничивают объем данных, который может сгруппировать этот алгоритм.

Один из наиболее в вычислительном отношении и интенсивно использующие память шаги в этом анализе является процессом, названным случайной прогулкой. Эта техника определяет количество силы связи между узлами, которая полезна для классификации и предсказания связей в сети. В случае интернет-поиска это может помочь Вам найти дешевый гостиничный номер в Сан-Франциско для весенних каникул и даже определить Вам наилучшее время, чтобы заказать его. В биологии такой инструмент мог помочь Вам определить белки, которые помогают Вашему телу бороться с вирусом гриппа.

Учитывая произвольный граф или сеть, трудно знать самый эффективный способ посетить все узлы и связи. Случайная прогулка получает смысл следа, исследуя весь граф беспорядочно; это начинается в узле и перемещается произвольно вдоль края к соседнему узлу. Этот процесс продолжает идти, пока все узлы в сети графа не были достигнуты.

Поскольку есть много различных способов поехать между узлами в сети, этот шаг повторяет многочисленные времена. Алгоритмы как MCL продолжат управлять этим случайным процессом прогулки, пока больше не будет значительной разницы между повторениями.

В любой данной сети у Вас мог бы быть узел, который связан с сотнями узлов и другим узлом только с одной связью. Случайные прогулки захватят очень связанные узлы, потому что различный путь будет обнаружен каждый раз, когда процессом управляют. С этой информацией алгоритм может предсказать с уровнем уверенности, как узел в сети связан с другим.

Промежуточный каждая случайная прогулка бежит, алгоритм отмечает свое предсказание для каждого узла на графе в колонке матрицы Маркова – отчасти как бухгалтерская книга – и заключительные группы показаны в конце. Это кажется достаточно простым, но для сетей белка с миллионами узлов и миллиардами краев, это может стать чрезвычайно в вычислительном отношении и интенсивно использующая память проблема. С HipMCL программисты Berkeley Lab использовали ультрасовременные математические инструменты, чтобы преодолеть эти ограничения.

«Мы особенно сохранили основу MCL в целости, делая HipMCL в широком масштабе параллельным внедрением оригинального алгоритма MCL», говорит Арифул Азэд, программист в CRD и ведущий автор статьи.Хотя были предыдущие попытки найти что-либо подобное алгоритму MCL, чтобы работать на единственном GPU, инструмент мог все еще только сгруппировать относительно маленькие сети из-за ограничений памяти на GPU, отмечает Азэд.«С HipMCL мы по существу переделываем алгоритмы MCL, чтобы бежать эффективно, параллельно на тысячах процессоров, и настраивать его, чтобы использовать в своих интересах совокупную память, доступную всего, вычисляют узлы», добавляет он. «Беспрецедентная масштабируемость HipMCL прибывает из ее использования современных алгоритмов для редкой матричной манипуляции».Согласно Buluc, выполняя случайную прогулку одновременно от многих узлов графа лучше всего вычислен, используя редко-матричное матричное умножение, которое является одной из самых основных операций в недавно опубликованном стандарте GraphBLAS.

Buluc и Azad разработали некоторые из большинства масштабируемых параллельных алгоритмов для редко-матричного матричного умножения GraphBLAS и изменили один из их современных алгоритмов для HipMCL.«Затруднение здесь должно было найти золотую середину между потреблением памяти и параллелизмом.

HipMCL динамично извлекает как можно больше параллелизма, учитывая доступную память, ассигнованную ему», говорит Булук.HipMCL: объединение в кластеры в масштабеВ дополнение к математическим инновациям другое преимущество HipMCL – своя способность бежать беспрепятственно на любой системе – включая ноутбуки, автоматизированные рабочие места и большие суперкомпьютеры. Исследователи достигли этого, разработав их инструменты в C ++ и используя стандартный MPI и библиотеки OpenMP.

«Мы экстенсивно проверили HipMCL на Intel Haswell, процессорах Ivy Bridge и Knights Landing в NERSC, используя до 2 000 узлы и полмиллиона нитей на всех процессорах, и во всех этих пробегах HipMCL успешно сгруппировал сети, включающие тысячи к миллиардам краев», говорит Булук. «Мы видим, что нет никакого барьера в количестве процессоров, которые оно может использовать, чтобы управлять и найти, что оно может сгруппировать сети в 1,000 раз быстрее, чем оригинальный алгоритм MCL».«HipMCL будет действительно трансформационным для вычислительной биологии больших данных, как IMG и системы IMG/M были для геномики микробиома», говорит Кирпайдс. «Это выполнение – завещание к выгоде междисциплинарного сотрудничества в Berkeley Lab. Как биологи мы понимаем науку, но это было таким образом неоценимо, чтобы быть в состоянии сотрудничать с программистами, которые могут помочь нам заняться нашими ограничениями и продвинуть нас вперед».

Их следующий шаг должен продолжить переделывать HipMCL и другие вычислительные инструменты биологии для будущего exascale системы, которые будут в состоянии вычислить quintillion вычисления в секунду. Это будет важно, в то время как данные о геномике продолжают расти с ошеломляющей скоростью – удваивающийся о каждых пяти – шести месяцах.

Это будет сделано как часть САМКИ Exascale Вычисление центра соразработки Проекта Exagraph.