Исследователи позади Exascale американского Министерства энергетики (DOE) Вычислительный Проект хочет сделать эту способность реальностью и делает так, создавая инструменты и технологии для exascale суперкомпьютеров – вычислительные системы по крайней мере в 50 раз быстрее, чем используемые сегодня. Эти инструменты продвинут способность исследователей проанализировать и визуализировать сложные явления, такие как рак и ядерные реакторы, которые ускорят научное открытие и инновации.Развитие слоев программного обеспечения, которые поддерживают и соединяют аппаратные средства и заявления, очень важно для делания этих систем следующего поколения реальностью.
«Эта окружающая среда программного обеспечения должна быть прочной и достаточно гибкой, чтобы обращаться с широким спектром заявлений и быть хорошо объединенной с аппаратными средствами и прикладным программным обеспечением так, чтобы заявления могли бежать и работать беспрепятственно», сказал Райеев Такур, программист в Национальной лаборатории Аргонна САМКИ и директор по разработке программного обеспечения для Exascale Computing Project (ECP).Исследователи в Подразделении Математики и Информатики Аргонна сотрудничают с коллегами от пяти других ядер национальные лаборатории ЭКПА ДОУ – Лоуренса Беркли, Лоуренса Ливермора, Сандиа, Ок-Ридж и Лос-Аламос – в дополнение к другим лабораториям и университетам.
Их цель состоит в том, чтобы создать новый и приспособить существующие разработки программного обеспечения, чтобы работать в exascale, преодолев проблемы, найденные в нескольких ключевых областях, таких как память, власть и вычислительные ресурсы.Контрольно-пропускной пункт/перезапускПрограммист Аргонна Франк Кэппелло ведет проект ECP, сосредоточенный на продвинутом контрольно-пропускном пункте/перезапуске, защитном механизме для противостояния неудачам, которые происходят, когда заявления бегут.
«Учитывая их сложность, ошибки в высокоэффективных системах – обычное явление, и некоторые из них приводят к неудачам, которые вызывают параллельные заявления потерпеть крах», сказал Каппельо.«Много заявлений ECP уже показывают контрольно-пропускной пункт/перезапуск, но потому что мы двигаем еще более сложную систему в exascale, нам нужны более сложные методы для него.
Для нас, который означает обеспечивать эффективный и эффективный контрольно-пропускной пункт/перезапуск для заявлений ECP, которые испытывают недостаток в нем, и обеспечение других заявлений более эффективного и масштабируемого контрольно-пропускного пункта/перезапуска».Cappello также ведет проект, который сосредотачивается на сокращении больших объемов данных, который произведен этими машинами, который является дорогим, чтобы сохранить и общаться эффективно.«Мы развиваем методы, которые могут уменьшить том данных, по крайней мере, фактора 10. Проблема с этим состоит в том, что Вы добавляете некоторый предел погрешности, когда Вы уменьшаете данные», сказал Каппельо.
«Центр тогда находится на управлении пределом погрешности; Вы хотите управлять ошибкой, таким образом, она не затрагивает научный результат в конце все еще будучи эффективной при сокращении, и это – одна из проблем, на которые мы смотрим».ПамятьДля получения информации, которая хранится на exascale системах, исследователям нужны средства управления управлением данными для памяти, власти и ядер обработки. Программист Аргонна Пит Бекман исследует методы для управления всеми тремя через проект, известный как Арго.
«Эффективность памяти и хранения должна не отставать от увеличения темпов вычисления и требований движения данных, которые будут существовать в exascale», сказал Бекман.«Но как память устроена в системах, и технология, используемая для нее, также изменяется и имеет больше слоев», сказал он. «Таким образом, мы должны объяснить эти изменения, в дополнение к предупреждению и проектированию вокруг будущих потребностей заявлений, которые будут использовать эти системы».С добавленными слоями памяти на exascale системах исследователи должны разработать дополнительное программное обеспечение для регулирования этих технологий памяти, которые дают пользовательский контроль над процессом.
«Наличие в распоряжении средств управления важно потому что, где Вы принимаете решение сохранить информационное влияние, как быстро Вы можете восстановить его», сказал Бекман.ВластьДругой ключевой ресурс, который изучают Бекман и исследователи Проекта Арго, является властью. Как с памятью, методы для распределения ресурсов власти могли убыстриться или замедлить вычисление в высокоэффективной системе.
Исследователи интересуются развивающимися разработками программного обеспечения, которые могли увеличить контроль пользователей над этим ресурсом.«Пределы власти могут не быть наверху списка, когда Вы имеете дело с меньшими системами, но когда Вы говорите приблизительно десятки мегаватт власти, которая является тем, в чем мы будем нуждаться в будущем, как прикладное использование, та власть становится важной особенностью различения», сказал Бекман.«Цель для нас состоит в том, чтобы достигнуть уровня контроля, который максимизирует способности пользователя, поддерживая эффективность и минимизируя стоимость», сказал он.
Обработка ядерСверхтонкие средства управления также необходимы для руководящих ядер в exascale системе.
«С каждым поколением суперкомпьютеров мы продолжаем добавлять ядра обработки, но системное программное обеспечение, которое заставляет их работать потребности способы разделить и управлять всеми ядрами», сказал Бекман. «И так как мы имеем дело, миллионы ядер, даже внося маленькие корректировки могут оказать огромное влияние на то, что мы в состоянии сделать; улучшение работы говорит, два – три процента, эквивалентно тысячам ценности ноутбуков вычисления».Одно понятие, которое Бекман и коллеги – исследователи исследуют, чтобы лучше управлять ядрами, является контейнеризацией, методом для того, чтобы собрать в группу избранное количество ядер и рассматривать их как единицу или «контейнер», которым можно управлять независимо.«Инструменты, мы должны теперь управлять ядрами, не так точны, делая его тяжелее, чтобы отрегулировать, сколько работы делается одним набором ядер по другому», сказал Бекман. «Но мы одалживаем и приспосабливаем контейнерные понятия в высокоэффективное вычисление, чтобы дать пользователям способность работать и справиться, как они используют те ядра более тщательно и непосредственно».Библиотеки программного обеспечения
Заявления полагаются на библиотеки программного обеспечения – высококачественные, коллекции программных обеспечений многократного использования – чтобы поддержать моделирования и другие функциональности. Чтобы сделать эти возможности доступными в exascale, исследователи Аргонна работают, чтобы измерить существующие библиотеки.
«Библиотеки обеспечивают важные возможности, включая решения числовых проблем», сказал математик Аргонна Барри Смит, который ведет проект, сосредоточенный на вычислении двух библиотек, известных как PETSc и ДАО.PETSc и ДАО широко используются для крупномасштабных числовых моделирований.
PETSc – библиотека, которая предоставляет решения определенных числовых вычислений. ДАО – библиотека, которая предоставляет решения крупномасштабных проблем оптимизации, таких как вычисление самой рентабельной стратегии перезагрузки топливных стержней в ядерном реакторе.В дополнение к вычислению разнообразных библиотек программного обеспечения ученые ECP также ищут способы улучшить их качество и совместимость.«Библиотеки были традиционно развиты независимо, и из-за различных стратегий, привыкших к разработке и реализации их, было трудно пользоваться многократными библиотеками в комбинациях.
Но большие заявления, как те, которые будут бежать в exascale, должны быть в состоянии использовать все слои стопки программного обеспечения в комбинации», заявил Аргонн вычислительный ученый Лоис Керфмен Макиннес.Макиннес – co-продвижение xSDK проект, который определяет общественные политические стратегии отрегулировать внедрение пакетов программ. Такая политика облегчит для разнообразных библиотек быть совместимой друг с другом.
«Эти усилия приносят нам один шаг ближе к пониманию прочной и проворной exascale окружающей среды, которая может помочь ученым в занятии большими проблемами», сказал Макиннес.