Wyjątkowa podróż - czyli wyprawa od DataLake na AWS do Databricks

Trzech naszych kolegów z zespołu Apex wzięło na siebie dużą odpowiedzialność. Wystąpili podczas tegorocznego Data Science Summit na PGE Narodowym. To największa w regionie Europy Środkowo-Wschodniej niezależna konferencja data science. Nie mogło nas na niej zabraknąć.

10 stycznia 2025 10:00
Jacek Cieślak
Case study

Sala pełna ludzi czekających na to, co powiemy. Wszystkie oczy skupione na nas. Kilka aparatów wymierzonych w naszą stronę, kamera rejestrująca każdy ruch, mikrofony w rękach, które zdają się ważyć tonę. To zdecydowanie nie jest świat, w którym poruszamy się na co dzień. Ale nadarzyła się świetna okazja, podczas której ten świat mogliśmy poznać od podszewki. Dlaczego od podszewki? Bo nie ma lepszego sposobu na odkrycie prawdziwego charakteru konferencji technologicznej, niż występ podczas niej. Chodzi oczywiście o listopadową konferencję Data Science Summit. A jeśli dodamy do tego tytuł naszej prelekcji: "Navigating the Data Storm - our journey from DataLake on AWS to Databricks", to wiadomo, że nie chodziło tylko o odważne zmierzenie się z technologiczną burzą danych, ale również o sztukę utrzymania równowagi na tej burzy danych. Zatem, przygotujcie się na opowieść o tym, jak na szczycie technologicznej fali trzymaliśmy się mocno… i to przez całe 30 minut!

Kilka słów o samej konferencji - Data Science Summit 2024

Data Science Summit 2024 była pierwszą konferencją tej skali, w której uczestniczyliśmy jako oficjalni reprezentanci i prelegenci Raiffeisen Tech. Mówiąc my, czas najwyższy się przedstawić:

Jacek Cieślak - Service Manager w zespole APEX Service Managers. Odpowiadam za wsparcie platformy APEX i jej użytkowników, przy ścisłej współpracy z kolegami z DevOps. Dodatkowo koordynuję testy rozwiązań przed ich dostarczeniem na platformę.
Robert Marek - DevOps Engineer w zespole APEX DevOps, pracuje nad rozwojem platformy APEX i wdrażaniem ciekawych rozwiązań, takich jak: Operational Database (Postgres), czy Unity Catalog.
Mateusz Wujec - Data Engineer w zespole Compliance, odpowiada za data quality oraz automatyzację procesów związanych z Compliance, a w ostatnich miesiącach jest zaangażowany w projekt wdrożenia platformy Quantexa.

Udział w Data Science Summit był świetną okazją do zgłębienia najnowszych trendów w dziedzinie zarządzania danymi, uczenia maszynowego i transformacji cyfrowej. Mogliśmy wymienić doświadczenia z ekspertami z różnych branż oraz zapoznać się z innowacyjnymi rozwiązaniami stosowanymi przez liderów rynku. Szczególnie doceniliśmy możliwość uczestniczenia w sesjach warsztatowych, które pozwoliły nam poznać najnowsze narzędzia i technologie wykorzystywane w procesach analitycznych oraz zarządzaniu danymi.

A jak daliśmy sobie radę z prelekcją?

W czasie tegorocznego Data Science Summit 2024 przeprowadziliśmy prelekcję zatytułowaną “Navigating the Data Storm - Our Journey from Data Lake on AWS to Databricks”. Podzieliliśmy się doświadczeniami z transformacji infrastruktury danych. W prezentacji omówiliśmy wyzwania, strategie oraz korzyści płynące z migracji z tradycyjnego Data Lake na AWS do platformy Databricks. Poniżej przedstawiamy szczegółowe podsumowanie każdej z trzech części wystąpienia, kładąc nacisk na kluczowe aspekty omawiane podczas prelekcji.

Jacek Cieślak - Transitioning to Databricks

Pierwsza część prezentacji spadła na mnie – Jacka. Omówiłem przejście z tradycyjnego Data Lake na platformie AWS do Databricks, podkreślając, że głównym celem migracji była optymalizacja zarządzania danymi, eliminacja problemów związanych z ograniczeniami starej infrastruktury i centralizacja danych całej grupy RBI w jednym miejscu.

Korzyści z migracji do Databricks są następujące:

Zintegrowane zarządzanie danymi:
Databricks oferuje kompleksowy system zarządzania i kontroli danych. Wykorzystuje zjednoczoną architekturę – architekturę Lakehouse – która łączy najlepsze cechy jezior danych (data lakes) i hurtowni danych (klasyczne bazy danych SQL). Obsługuje śledzenie pochodzenia danych i ich transformacji (data lineage), jest kompatybilny z różnymi formatami danych oraz łatwo integruje się z narzędziami do przechowywania i przetwarzania danych.
Dodatkowe narzędzia wspierające współpracę:
Na przykład interaktywne notatniki (notebooks), które można udostępniać innym, zarządzanie zasobami bezpośrednio przez użytkownika, harmonogramowanie i uruchamianie zadań (jobs).
Bezproblemowe odkrywanie i dostęp do danych:
Możliwość odnajdywania i ponownego wykorzystywania danych oraz zasobów opartych na danych, takich jak modele MLflow. Może to zmienić sposób pracy użytkowników, czyniąc ich bardziej efektywnymi i niezależnymi. Zachęca również do współpracy i płynnej integracji dostępnych informacji w grupie.
Zintegrowana warstwa bezpieczeństwa:
Dane są szyfrowane zarówno w stanie spoczynku, jak i podczas transmisji. Oferuje rozbudowane mechanizmy kontroli dostępu, możliwość użycia własnych kluczy (bring-your-own-key), audyt oraz monitorowanie.
Skalowalność i integracja:
Databricks uprościł integrację danych z różnych źródeł oraz poprawił współpracę zespołów dzięki centralizacji danych i narzędzi analitycznych.
Innowacyjność w branży:
Databricks jest obecnie liderem innowacji w dziedzinie danych i uczenia maszynowego, będąc największym kontrybutorem do standardowych zestawów narzędzi, takich jak Apache Spark, MLflow czy Delta Lake.

Omówiłem również problemy związane z szybkim rozwojem platformy oraz jej integracją z rozwiązaniami starszymi (legacy) lub lokalnymi (on-premise). Zwykle przyczyniają się one do różnych przeszkód, takich jak spowolnienie procesu udostępniania i dostępu do zasobów, skomplikowane zarządzanie łącznością sieciową i modelami uprawnień w całej grupie czy udostępnianie danych między projektami centrali a projektami NWB.

Na koniec odniosłem się do rozwiązania Self-Service, które jest obecnie intensywnie rozwijane i wkrótce zostanie udostępnione użytkownikom. Więcej na ten temat opowie Robert w swojej części.

Robert Marek - Self-Service Needs

Podczas drugiej części wystąpienia scena należała do Roberta Marka, który przedstawił potrzeby samoobsługi w kontekście przetwarzania danych. Omówił dwie alternatywne ścieżki rozwoju tego obszaru, rozważając zalety i wady każdej z nich.

Eksploracja alternatywnych podejść:

Podejście tradycyjne: polega na centralizacji przetwarzania danych, gdzie dane są dostarczane do użytkowników przez wyspecjalizowane zespoły. Zaletą tego podejścia jest lepsza kontrola nad jakością danych, ale wiąże się to z dłuższym czasem wdrożenia i mniejszą elastycznością.
Model samoobsługowy: zespoły biznesowe zyskują większą autonomię w dostępie do danych i budowie rozwiązań analitycznych. W tym modelu głównym wyzwaniem jest zapewnienie odpowiedniej kontroli nad jakością i bezpieczeństwem danych.

Robert przedstawił też narzędzia wspierające model samoobsługowy, w tym alerty monitorujące opóźnienia w dostarczaniu danych, które umożliwiają efektywniejsze zarządzanie potokami danych. Zwrócił również uwagę na znaczenie standaryzacji procesów, aby uniknąć zbędnych opóźnień i złożoności.

Na koniec zwrócił uwagę, że platforma została zaprojektowana tak, aby umożliwiać bezproblemowy dostęp do danych i przyjazne dla użytkownika zarządzanie, jednak jest z natury złożona i musi działać zgodnie z wymaganiami naszej grupy RBI. Wymaga to dokładnego planowania i starannego zarządzania.

Mateusz Wujec - Data Engineers Perspective

Last but not least - Mateusz Wujec – który omówił wyzwania związane z zarządzaniem jakością danych oraz testowaniem z perspektywy inżyniera danych. Mateusz podkreślił znaczenie systematycznej analizy danych, zwracając uwagę na kilka kluczowych narzędzi i procesów:

Optymalizacja przetwarzania danych: Mateusz opisał, jak migracja do Databricks poprawiła zarządzanie danymi dzięki zastosowaniu warstwowej architektury danych (brązowej, srebrnej i złotej), z których każda pełni określoną rolę w procesie transformacji danych.
Zarządzanie jakością danych: wdrożenie systemu monitorowania jakości danych pozwoliło na identyfikację i szybkie rozwiązywanie problemów. Wykorzystanie cieniowanych kopii danych umożliwiło głębszą analizę jakości.
Kopie cieniowane tabel: służą do analizy problemów z jakością danych, umożliwiając identyfikację źródeł problemów oraz ocenę ich stopnia występowania.
Pulpity monitorujące jakość danych: dzięki tym narzędziom możliwe jest regularne monitorowanie jakości danych i szybkie reagowanie na pojawiające się problemy.

Mateusz wskazał też, że największym wyzwaniem było zarządzanie jakością danych, pochodzących z zewnętrznych systemów. Podkreślił, że pełna poprawa jakości wymaga nie tylko lepszych narzędzi, ale także współpracy z dostawcami danych.

Jednym z kluczowych zagadnień poruszonych przez Mateusza było testowanie procesów CI/CD. Dzięki zastosowaniu narzędzi takich jak Terraform i GitHub Actions, infrastruktura jako kod została znacznie usprawniona. Niemniej jednak, testowanie potoków w notebookach Databricks pozostaje wyzwaniem, nad którym zespół wciąż intensywnie pracuje.

Uff i dotarliśmy do końca!

Chyba nikogo nie zdziwi, że oczywiście, nie obyło się bez odrobiny stresu. Pomimo małego dreszczyku emocji, wszystko poszło zgodnie z planem. Prezentacja zakończyła się sesją pytań i odpowiedzi, która pozwoliła nam jeszcze bardziej pogłębić omawiane tematy. Dyskusja, która się wywiązała, pokazała, jak bardzo temat transformacji infrastruktury danych jest na czasie. Wspólnie z uczestnikami konferencji przekonaliśmy się, jak ważna w dzisiejszym świecie zarządzania danymi jest elastyczność, współpraca i standaryzacja procesów. Mimo trudności, migracja do Databricks okazała się kluczowym krokiem w optymalizacji procesów przetwarzania danych. Dała naszym zespołom większą autonomię, a przy tym zapewniła wysoki poziom jakości i bezpieczeństwa danych. To był dzień pełen wyzwań, ale i satysfakcji z osiągniętych celów!

Chcecie wiedzieć więcej? Zobaczcie nagranie z naszego wystąpienia

Podzieliliśmy się tam nie tylko wyzwaniami, które napotkaliśmy podczas tej transformacji, ale również rozwiązaniami, które okazały się kluczowe dla sukcesu całego procesu. Jak wyglądała nasza droga przez burzę danych – od planowania, przez implementację, aż po finalny efekt, który zrewolucjonizował nasze podejście do przetwarzania danych.

Jeśli zaciekawiliśmy Was tematem migracji z DataLake na AWS do Databricks i chcecie poznać szczegóły naszej technologicznej podróży, zapraszamy do obejrzenia nagrania, które w anglojęzycznej wersji znajdziecie na naszym Tech Blogu oraz na Youtube. Zapraszamy też do zapoznania się z prezentacją w języku angielskim, którą omawialiśmy podczas naszego wystąpienia.

pdf Pobierz prezentację (4 MB)

Jacek Cieślak

APEX Service Manager

jacek.cieslak@rbinternational.com.pl