Skip to main content

Nowe technologie w służbie zrównoważonego rozwoju: ESG Data Hub

W erze cyfryzacji i zrównoważonego rozwoju, innowacyjne rozwiązania technologiczne odgrywają kluczową rolę w sukcesie instytucji finansowych. W Raiffeisen Tech jesteśmy zaangażowani w zieloną rewolucję i dążymy do wprowadzenia nowatorskich rozwiązań, które przyczynią się do ochrony środowiska i zrównoważonego rozwoju. 

  • Jakub Ratajewicz

Jednym z naszych najnowszych projektów jest ESG Data Hub, realizowany na platformie APEX. Wokół tego projektu oraz EU Taxonomy Tool (GAIA) powstał nowy Tribe, „Accelerate Data Governance & Green Data Analytics (ADGGDA)”. Chcesz poznać szczegóły naszego przedsięwzięcia oraz korzyści, jakie niesie dla klientów i całego sektora finansowego? Zapraszamy do lektury! 

Czym jest ESG?

ESG to akronim od Environmental, Social, and Corporate Governance, czyli odpowiednio: czynniki środowiskowe, odpowiedzialność społeczna oraz ład korporacyjny. Te trzy kategorie stanowią podstawę oceny przedsiębiorstw, państw i innych organizacji pod kątem zrównoważonego rozwoju. ESG Data Hub ma być centralnym miejscem, zaopatrującym różne zespoły w banku w dane, które umożliwiają przeprowadzenie takiej oceny.

Architektura rozwiązania

ESG Data Hub tworzymy na platformie APEX. APEX to wewnętrzny projekt RBI, oparty o technologię Databricks. Zapewnia on środowisko i narzędzia do tworzenia rozwiązań z zakresu inżynierii danych oraz uczenia maszynowego. Na APEX powstaje równolegle wiele projektów, a osoby z Raiffeisen Tech mają niemały udział w rozwoju samej platformy. Nasz zespół tworzy Data Hub dla Head Office. Docelowo każdy Bank Grupy ma być odpowiedzialny za swój Hub, tworzony na podstawie naszego rozwiązania.

W obecnej, pierwszej fazie projektu, jesteśmy skupieni na implementacji samego Data Hubu, oznaczonego na diagramie kolorem niebieskim. Główny proces przetwarzający dane, zaimplementowany jest jako Databricks Workflow. Workflow tworzymy w sposób deklaratywny, definiując jego konfiguracje w plikach YAML i wykorzystując Databricks Asset Bundles. Dużą zaletą Databricks Workflows jest możliwość łatwego ustalenia harmonogramu, wykonywania takiego procesu oraz powiadomień w przypadku niepowodzenia przez np. mail lub wiadomość na Teams.

Źródło: materiały własne

Każdy krok napisany jest w Pythonie. Do przetwarzania danych, po ich pozyskaniu, korzystamy z Apache Spark, który jest głównym narzędziem tego typu na Databricks. Na starcie mamy do czynienia z dwoma trzema danych: 

  • Kwestionariuszami Excel przekazywanymi RBI przez klientów. 
  • Zbiorczym Excelu ze zbiorem danych pochodzących z publikowanych przez klientów raportów ESG.
  • OeKB, czyli Oesterreichische Kontrollbank i ich API. 

W pierwszym kroku dane są wczytywane (z API lub z bucketu AWS S3), parsowane i zapisywane w Hubie jako CSV/Parquet. Następnie korzystamy z Delta Live Table Pipelines, by w sposób inkrementalny czyścić nowo spływające do nas dane, normalizować je i przekształcać w spójną strukturę. Każdy taki Pipeline tak naprawdę też składa się z kilku kroków i zapisuje kolejne stadia przetwarzanych danych jako tabele w bazie. Podążamy tu za tzw. Medallion Architecture. 

Uspójnione dane łączymy w jedną tabelę. Jest ona głównym produktem procesu, z którego będą korzystać inne zespoły. 

Ostatnim krokiem w procesie jest wysłanie wiadomości do REDA (Rice Event Driven Architecture) o dodaniu lub uaktualnieniu danych w Data Hubie. REDA pod spodem używa Confluent Kafki, a my wysyłamy wiadomości przez Spark Structured Streaming. Konsumenci danych otrzymują nasze wiadomości, dzięki czemu wiedzą jakie dane (i kiedy) mogą pobrać z Data Hubu. 

Końcowym elementem układanki jest Denodo. Denodo pozwala na tworzenie, w sposób częściowo zautomatyzowany, API na podstawie różnych źródeł danych, np. baz relacyjnych czy właśnie Databricks. Po przeczytaniu wiadomości o nowych danych z REDA, przez Denodo konsumenci pobierają dane z ESG Data Hubu.

Wykorzystanie danych

W tym stadium projektu skupiamy się na pozyskaniu i obsłudze danych, które udostępniane będą zespołom specjalistycznym. Po ustabilizowaniu tego etapu daje to potencjał na uzyskanie informacji będącej wypadkową zgromadzonych danych, którą będzie można się podzielić szerzej w naszej organizacji.

Dane ESG to bardzo szerokie pojęcie. Wspomniane w punkcie 1 kategorie, posiadają mnóstwo charakterystyk, co przekłada się na wielki potencjał i możliwości w sferze finansów. Dostarczane przez nasze MVP dane, służą do nadania ratingu klienta pod względem oddziaływania na środowisko. Rating ten przekłada się na dostępne warunki oraz premie dla firm, które transformują swój biznes lub podejmują się inicjatyw, na przykład mających na celu redukcję emisji. Rating Klienta, ale też inne wspomniane charakterystyki ESG, są i będą wymagane obligatoryjnie od instytucji finansowych przez regulatorów. Dane te dadzą też możliwość zadeklarowania oraz diagnozy portfolio naszego Banku. Klienci “silnie emisyjni” mogą być ryzykowni w przyszłości, jako że regulacje stają się coraz ostrzejsze i potencjalnie tacy Klienci będą obciążeni większymi kosztami. 

Na obecnym etapie tworzenie procesów zaczynamy do zbierania nowych danych, dotyczących:

  • Ryzyka fizycznego (czyli związanego z ekstremalnymi warunkami pogodowymi). Dane te pozwolą odpowiedzieć na pytania, w jak bardzo ryzykownej lokalizacji jest określona nieruchomość i jak jej wartość może się zmienić przy wariantach zmian klimatycznych.
  • Pożyczek społecznościowych. Dane te będą dotyczyć stricte Klientów oraz ich miejsca operacji. Według nadchodzących programów UE, niektóre regiony będą specjalnie wspierane, co znów przełoży się na większe możliwości dofinansowania oraz lepsze warunki.

Podsumowanie

Rozwój ESG Data Hub to ważny krok w kierunku zrównoważonego rozwoju w Raiffeisen Tech. Nowe funkcjonalności poprawią efektywność i transparentność procesów finansowych, wspierając naszą misję ochrony środowiska i odpowiedzialności społecznej.