Яндекс.Погода

вторник, 28 января

пасмурно-5 °C

Онлайн трансляция

Обновленный суперкомпьютер имени Н.Н. Говоруна представлен в Объединенном институте ядерных исследований

15 нояб. 2019 г., 11:00

Просмотры: 382


Проект нацелен на кардинальное ускорение комплексных теоретических и экспериментальных исследований в области физики высоких энергий, ядерной физики и физики конденсированных сред, проводимых в ОИЯИ, в том числе для реализации мегапроекта NICA

Автор фото: Егор Ступин

В Объединенном институте ядерных исследований состоялась презентация обновленного суперкомпьютера, названного в честь директора Лаборатории вычислительной техники и автоматизации ОИЯИ в 1988-1989 гг. Николая Николаевича Говоруна (член-корреспондент Академии наук СССР, профессор, доктор физико-математических наук), с именем которого с 1966 года неразрывно связано развитие информационных технологий в этой международной межправительственной научно-исследовательской организации.

На торжественной церемонии представления обновления суперкомпьютера в Лаборатории информационных технологий (ЛИТ) ОИЯИ присутствовали член-корреспондент Российской академии наук Владимир Дмитриевич Кекелидзе, вице-директор Объединенного института ядерных исследований, директор лаборатории ЛФВЭ, руководитель мегасайенс проекта NICA, гости из научных и учебных, а также коммерческих организаций.

Суперкомпьютер Объединенного института ядерных исследований нацелен на решение сложнейших научно-практических задач и поддержки мегасайенс проекта NICA и других экспериментов во всех лабораториях института: Лаборатории теоретической физики (ЛТФ) им. Н.Н. Боголюбова, Лаборатории физики высоких энергий (ЛФВЭ) им. В.И. Векслера, А.М. Балдина, Лаборатории ядерных проблем В.П. Джелепова, Лаборатории ядерных реакций им Г.Н. Флерова, Лаборатории нейтронной физики им И.М. Франка и Лаборатории радиационной биологии. Проект реализуется Лабораторией информационных технологий (ЛИТ) при поддержке дирекции ОИЯИ с участием специалистов группы компаний РСК и корпорации Intel.

Проект нацелен на кардинальное ускорение комплексных теоретических и экспериментальных исследований в области физики элементарных частиц, ядерной физики и физики конденсированных сред, в том числе для реализации научной программы на ускорительном комплексе NICA, создаваемого на базе ОИЯИ для воссоздания в лабораторных условиях особого состояния вещества, в котором пребывала наша Вселенная в первые мгновения после Большого Взрыва – кварк-глюонную плазму. Ввод в эксплуатацию этого ускорительного комплекса планируется осуществить в 2022 г.

Эксплуатация первой очереди суперкомпьютера ОИЯИ имени Н.Н. Говоруна в течении прошедших полутора лет позволила провести целый ряд сложнейших ресурсоемких вычислений в области квантовой хромодинамики на решетках для исследования свойств адронной материи при высокой плотности энергии и барионного заряда и в присутствии сверхсильных электромагнитных полей, качественно повысить оперативность моделирования динамики столкновений релятивистских тяжелых ионов, позволил ускорить процесс генерации и реконструкции событий для экспериментов мегасайенс проекта NICA, провести расчеты радиационной безопасности экспериментальных установок ОИЯИ, существенно ускорить исследования в области радиационной биологии и других научно-прикладных задач решаемых в ОИЯИ. Результаты данных научных исследований были опубликованы в более чем 50-ти ведущих мировых научных изданиях.

«На текущий момент трудно представить физику высоких энергий без применения ИТ-технологий, по мере своего развития суперкомпьютер «Говорун» и Лаборатория информационных технологий становятся центральным звеном поддержки всех научных экспериментов и теоретических расчетов для всего ОИЯИ, а также международных проектов в которых Институт принимает участие», – отметил Владимир Васильевич Кореньков, директор Лаборатории информационных технологий Объединенного института ядерных исследований.

Обновленный суперкомпьютер ОИЯИ обладает совокупной теоретической пиковой производительность 860 ТФЛОПС (терафлопс - триллион операций с плавающей запятой в секунду, равен 1000 гигафлопс) двойной точности, что позволило ему занять 10 место в списке Top50 самых мощных суперкомпьютеров России и стран СНГ.

Суперкомпьютер «Говорун», реализованный на основе решения «РСК Торнадо», является гиперконвергентной программно-определяемой системой. Этот подход является новым для индустрии высокопроизводительных систем, а реализованный проект обладает уникальными свойствами по гибкости настройки системы под задачу пользователя, максимизации эффективности использования ресурсов суперкомпьютера.

В основе построения системы лежит подход объединения ресурсов для вычисления (compute) и хранения (store) на каждом узле системы. Каждый узел системы является как частью вычислительной подсистемы так и частью распределенной системы хранения данных пользователей исполняя сразу два вида нагрузки (compute/store). Это позволяет линейно масштабировать ресурсы системы с увеличением количества узлов. В отличии от классического подхода в НРС, когда вычислительная система и система хранения являются обособленными и масштабируются отдельно, в гиперконвергентной системе с увеличением количества узлов системы растет как вычислительная мощность, так и объем/скорость распределенной системы хранения данных растут параллельно. Программное обеспечение суперкомпьютера на основе ПО «РСК БазИС» позволяет создавать, конфигурировать и управлять системами такого типа, прецизионно выделяя под каждую задачу пользователя необходимые вычислительные ресурсы и ресурсы системы хранения. 

Для создания максимально гибких конфигураций в системе присутствуют узлы различных типов:

1. Стандартные двухпроцессорные узлы с двумя высокоскоростными NVMe на основе процессоров семейства Intel® Xeon® Scalable Gen. 2 (модели Intel® Xeon® Gold 8268), платы семейства Intel® Server Board S2600BP и высокоскоростными твердотельными дисками Intel® SSD DC P4511 с интерфейсом NVMe емкостью 2 Тбайт и форм-фактором M.2. и одним 100Гб/с адаптером Intel® Omni-Path.

Данные узлы являются основой для стандартных вычислений и распределенной «системы хранения по требованию».

2. Узлы с развитой гиперконвергенцией - двухпроцессорные узлы с двенадцатью слотами форм-фактора M.2 под высокоскоростные NVMe диски.

В узлах находятся процессоры семейства Intel® Xeon® Scalable Gen. 2 (модели Intel® Xeon® Gold 8268), платы семейства Intel® Server Board S2600BP, двумя 100Гб/с адаптером Intel® Omni-Path и либо

• 12 высокоскоростных твердотельных диска Intel® SSD DC P4511 с интерфейсом NVMe емкостью 2 Тбайт и форм-фактором M.2. для создания сверхбыстрой системы хранения как статической так и «системы хранения по требованию».

• Либо 12 высокоскоростных и низколатентных Intel® SSD DC Optane P4801X  с интерфейсом NVMe емкостью 375Гбайт и интерфейсом M.2.

Данные узлы могут быть использованы как для создания систем с большой памятью (до 3.4ТБ на узел), либо как очень быстрых компонент параллельной системы хранения (например, MDS в ПФС Lustre).

3. Узлы для решения задач со сверхмассивной параллельностью на основе 72-ядерных серверных процессоров Intel® Xeon Phi™ 7290, платы семейств Intel® Server Board S7200AP твердотельные накопители семейства Intel® SSD DC S3520 с подключением по шине SATA в форм-факторе M.2

Для высокоскоростной передачи данных между вычислительными узлами в составе суперкомпьютерного комплекса ОИЯИ используется технология коммутации Intel® Omni-Path, обеспечивающая скорость неблокируемой коммутации до 100 Гбит/c, на основе 48-портовых коммутаторов Intel® Omni-Path Edge Switch 100 Series со 100% жидкостным охлаждением, что обеспечивает высокую эффективность работы системы охлаждения в режиме «горячая вода» и наиболее низкую совокупную стоимость владения системой. Применение низколатентной Intel® Omni-Path Architecture позволяет удовлетворить не только текущие потребности ресурсоемких приложений пользователей, но и обеспечить необходимый запас пропускной способности для распределенных системы хранения суперкомпьютера.

Гиперконвергентная архитектура суперкомпьютера «Говорун» позволила создать уникальныую высокоскоростную систему хранения данных обладающую лидерскими характеристиками – скоростью параллельной файловой системы, превышающей 300ГБ/с на чтение/запись информации, что является рекордом не только на территории России/СНГ, но и на территории Европы. Достижение таких показателей стало возможным только благодаря применению программно-аппаратных гиперконвергентных решений РСК, поскольку применение стандартных технологий построения отдельно стоящих систем хранения данных (СХД) потребовал бы в десятки раз более дорогого решения.

 «Важно отметить, что обновленный суперкомпьютер ОИЯИ «Говорун» не только позволит проводить сложнейшие массивные вычисления в области физики высоких энергий, но также, благодаря реализованной уникальной сверхбыстрой системе хранения данных, позволит на качественно новом уровне работать с большими объемами данных, в том числе для задач генерации и реконструкции событий для экспериментов на ускорительном комплексе NICA. По своим скоростным характеристикам данная система не имеет аналогов в вычислительных системах, использующихся для обработки экспериментальных данных в области физики высоких энергий в мире», – подчеркнул Владимир Дмитриевич Кекелидзе, вице-директор Объединенного института ядерных исследований, директор лаборатории ЛФВЭ, руководитель мегасайенс проекта NICA.

Уникальное внедренное решение «системы хранения по требованию» позволяет на суперкомпьютере «Говорун» формировать специфическую систему хранения для каждой запускаемой на суперкомпьютере задачи с требуемыми свойствами такими как: объем и скорость, тип файловой системы, времени существования, уровня надежности и безопасности, что было бы так же невозможно в случае стандартного подхода к построению СХД для НРС систем.

Помимо вышеперечисленных инноваций суперкомпьютер «Говорун» на основе «РСК Торнадо» является высокоплотным и энергоэффективным решением на базе серверных технологий Intel с прямым жидкостным охлаждением, разработанным специалистами российской группы компаний РСК. В Объединенном институте ядерных исследований установлены универсальные вычислительные шкафы «РСК Торнадо» с рекордной энергетической плотностью и системой прецизионного жидкостного охлаждения, сбалансированной для постоянной работы с высокотемпературным хладоносителем (до +63 °С на входе в вычислительный шкаф). В соответствии с условиями размещения оборудования для ОИЯИ был выбран оптимальный режим работы вычислительного шкафа при постоянной температуре хладоносителя +45 °С на входе в вычислительные узлы (с пиковым значением до +57 °С).

Работа в режиме «горячая вода» для данного решения позволила применить круглогодичный режим free cooling (24x7x365), используя только сухие градирни, работающие при температуре окружающего воздуха до +50 °С, а также полностью избавиться от фреонового контура и чиллеров. В результате среднегодовой показатель PUE системы, отражающий уровень эффективности использования электроэнергии, составляет менее чем 1,06. То есть на охлаждение расходуется менее 6% всего потребляемого электричества, что является выдающимся результатом для HPC-индустрии.  

Высокая доступность, отказоустойчивость и простота использования вычислительных систем, созданных на базе решений РСК для высокопроизводительных вычислений, также обеспечиваются благодаря передовой системе управления и мониторинга на базе ПО «РСК БазИС». Она позволяет осуществлять управление как отдельными узлами, так и всем решением в целом, включая инфраструктурные компоненты. Все элементы комплекса (вычислительные узлы, блоки питания, модули гидрорегулирования и др.) имеют встроенный модуль управления, что обеспечивает широкие возможности для детальной телеметрии и гибкого управления. Конструктив шкафа позволяет заменять вычислительные узлы, блоки питания и гидрорегулирования (при условии применения резервирования) в режиме горячей замены без прерывания работоспособности комплекса. Большинство компонентов системы (таких, как вычислительные узлы, блоки питания, сетевые и инфраструктурные компоненты и т.д.) – это программно-определяемые компоненты, позволяющие существенно упростить и ускорить как начальное развертывание, так и обслуживание, и последующую модернизацию системы. Жидкостное охлаждение всех компонентов обеспечивает длительный срок их службы.

«Мы очень рады, что передовые решения РСК для высокопроизводительных вычислений теперь будут активно использоваться не только для развития российской науки, но и для повышения эффективности и результативности международного научного сотрудничества, примером которого является многолетняя деятельность Объединенного института ядерных исследований», – подчеркнул Александр Московский, генеральный директор группы компаний РСК.

В РСК накоплен уникальный опыт разработки, создания и эксплуатации высокоплотных и энергоэффективных суперкомпьютерных комплексов с жидкостным охлаждением, де-факто компания является мировым технологическим лидером в этой области. Среди ключевых заказчиков РСК – организации высшего образования (ведущие российские университеты) и науки, научно-исследовательские центры, лаборатории и конструкторские бюро. Решения компании, кроме нового проекта в ОИЯИ, установлены и активно используются для моделирования и расчетов широкого спектра научно-исследовательских и реальных промышленных задач в Санкт-Петербургском политехническом университете Петра Великого (СПбПУ), Межведомственном суперкомпьютерном центре Российской Академии Наук (МСЦ РАН), Сибирском суперкомпьютерном центре (ССКЦ) ИВМиМГ СО РАН, Южно-Уральском государственном университете (ЮУрГУ), Институте океанологии имени П.П. Ширшова РАН, Московском физико-техническом университете (МФТИ), Росгидромете и у других заказчиков из различных отраслей промышленности и направлений деятельности, таких как авиамоторостроение, энергетика, компьютерная графика, нефтегазовая отрасль и другие.