Grid – przetwarzanie i analiza danych eksperymentalnych

Pod koniec XX wieku, w CERNie, planowano budowę nowego, wielkiego akceleratora zderzającego protony – Large Hadron Collider (LHC). Jego zatwierdzenie przez Radę CERNu, w końcu 1994 roku, wywołało od razu z niepokój dotyczący przetwarzania ogromnych objętości danych i zorganizowania odpowiedniej ilości procesorów i pamięci masowej, niezbędnych do ich przetwarzania, gromadzenia i udostępniania. Detektory przy LHC wytwarzają w sumie na sekundę ok. 1 petabajta (10¹⁵ bajtów) danych, co odpowiadało wtedy całkowitemu dobowemu ruchowi telekomunikacyjnemu w Europie. Która instytucja podejmie się tego zadania, skoro nawet dla CERNu zbudowanie i utrzymanie tak wielkich zasobów obliczeniowych jest zadaniem ponad siły? Poza tym zdano sobie sprawę z wymagania bardzo krótkich cykli modernizacyjnych sprzętu informatycznego. O ile akcelerator jest urządzeniem zbudowanym na ok. 20 lat, to sprzęt komputerowy dużej mocy starzeje się już po kilku latach. Do tego doszły jeszcze trudności natury społecznej i finansowej. Przy bardzo napiętym budżecie na budowę LHC, namówienie rządów państw członkowskich na zwiększenie wydatków komputerowych w CERNie byłoby zbyt trudne. Na dodatek, nie dawało to państwom żadnej korzyści w postaci zwiększenia liczby miejsc pracy i modernizacji własnej infrastruktury. Wszystkie aspekty tego problemu ujęte zostały w tzw. raporcie Hoffmanna, sporządzonym przez ówczesnego Zastępcy Dyrektora CERNu ds. Obliczeń. Z tych trudności wybrnięto wykorzystując nowy paradygmat Fostera i Kesselmanna, dotyczący struktury wielkoskalowego przetwarzania danych i nazwany Grid Computing. Jest to taki rodzaj sieciowego przetwarzania danych, który upodobnia je do dystrybucji energii elektrycznej, czyli z informacji czyni rodzaj towaru.

W roku 2001 fizycy polscy, zainteresowani budową sieci gridowej dla nowych eksperymentów w CERNie, zaczęli organizować nasz udział w tym przedsięwzięciu. W pierwszym projekcie gridowym wzięło udział pięć instytutów: Instytut Fizyki Jądrowej im. H. Niewodniczańskiego, Instytut Problemów Jądrowych im. Andrzeja Sołtana, Akademickie Centrum Komputerowe Cyfronet AGH, Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego UW i Poznańskie Centrum Superkomputerowo-Sieciowe PAN. Instytucje te weszły do projektu CrossGrid, prowadzonego przez ACK Cyfronet AGH, a finansowanego przez Unię Europejską i polskie Ministerstwo Nauki i Informatyzacji. W ramach tego projektu udało się zintegrować Polskę z siecią gridową w Europie, w tym właśnie z CERNem. Architektura gridu jest hierarchiczna. Na szczycie piramidy stoi Tier-0, który jest węzłem sieciowym najbliższym miejscu zbierania danych, czyli CERN. Dane rozsyłane są do ośrodków typu Tier-1 i Tier-2, w których oprócz wszystkich etapów przetwarzania danych rzeczywistych i symulacji, umieszczone są rozliczne serwisy gridowe, takie jak np. oprogramowanie do dystrybucji danych, tworzenia kopii zapasowych oraz sieciowe narzędzia do analizy danych przez fizyków. Polskie ośrodki stworzyły wtedy wspólnie węzeł Tier-2.

Drugim ważnym etapem było przekształcenie gridowej infrastruktury testowej w produkcyjną. Zajęto się tym w ramach trzech dużych projektów europejskich Enabling Grids for E-science (EGEE), w latach 2004-2009, gdzie polskie instytuty grały rolę równorzędnych partnerów państw tzw. starej Europy. Projekty te rozpoczęły się właśnie w czasie, gdy Polska stała się członkiem Unii Europejskiej. W ten sposób eksperymenty w CERNie uzyskały mocne zaplecze obliczeniowe, a nowy członek UE, jakim była Polska, od razu zajął w nich bardzo dobrą pozycję. Usługi gridowe w Polsce koordynować zaczęło konsorcjum Pl-Grid, zarządzane w ACK Cyfronet AGH.

Następne lata przyniosły rozbudowę polskiego wkładu w grid dla fizyki wysokich energii, nazwany Worldwide LHC Computing Grid (WLCG). W międzyczasie ruszył zderzacz protonów LHC, a ośrodki superkomputerowe w Polsce wielokrotnie przeorganizowały się i podzieliły rolami. Obecnie główny ciężar przetwarzania danych dla LHC niosą dwa ośrodki Komputerów Dużej Mocy: ACK Cyfronet AGH skupia się głównie na eksperymencie ATLAS, zaś Centrum Informatyczne Świerk NCB – na eksperymencie LHCb. Ten ostatni ośrodek przekształca się w Tier-1 dla LHCb. W WLCG uczestniczą też PCSS PAN, obsługujący ALICE, zaś ICM UW planuje powrót do uczestnictwa w WLCG i skoncentrowanie sił na eksperymencie CMS. Istotną rolę w gridzie WLCG odgrywa sieć o dużej przepustowości i dobrej jakości. W Polsce sieć dla badań naukowych zarządzana jest przez konsorcjum PIONIER. W kwietniu 2021 roku działalność polska w tej dziedzinie została uporządkowana formalnie, w postaci zawartego Porozumienia w zakresie udostępniania polskich zasobów do przetwarzania danych na rzecz Worldwide LHC Computing Grid (WLCG).

Obecne technologie umożliwiają już przetwarzanie danych z wydajnością kilkakrotnie wyższą niż przed dwudziestu laty. Jednak wciąż jest ona za mała. Duże zadania związane z analizami fizycznymi w eksperymentach przy LHC muszą nieraz czekać długo na zwolnienie zasobów, zwłaszcza tam, gdzie wymaga to dużej symulacji lub dużych transferów danych po sieci. Niedługo już pojawią się nowe problemy, związane z planowanym na rok 2026 uruchomieniem LHC o dużej świetlności, który dostarczy strumienia danych dziesięciokrotnie większego w stosunku do obecnego. Dlatego już dziś planuje się wykorzystanie do tego technologii obliczeń kwantowych i prowadzi się wstępne prace w tym kierunku.

Czytniki taśm w serwerowni CIŚ w NCBJ. — Czytniki taśm w serwerowni CIŚ w NCBJ (foto: NCBJ)