Blog - BigLake: Unifying data lakes and warehouses across clouds

BigLake: waarom en hoe te gebruiken?

Organisaties zien hun gegevens in versneld tempo groeien. En terwijl teams oplossingen bouwen met de juiste tools, belanden gegevens vaak op verschillende locaties, in verschillende formaten en zelfs op verschillende cloudplatforms. Deze steeds meer gedistribueerde gegevens leiden tot silo's, en datasilo's brengen hun eigen risico's en problemen met zich mee. Toch hebben deze gegevens een grote analytische waarde waarmee nieuwe en steeds veeleisender gebruikscases van klanten kunnen worden aangepakt.

Om zich te ontwikkelen in een groeiende digitale wereld moeten bedrijven datasilo's doorbreken en nieuwe analytische use cases mogelijk maken, ongeacht waar de gegevens zijn opgeslagen of het formaat ervan.

Om deze kloof tussen gegevens en waarde te overbruggen, heeft Google een nieuwe functie geïntroduceerd: BigLake. BigLake bouwt voort op de jarenlange innovatie van BigQuery, het is een storage engine die data lakes en data warehouses verenigt, terwijl het toegangscontrole met hoge granulariteit, prestatieversnelling op multi-cloud opslag en ondersteuning voor open bestandsformaten biedt.

Architectuur - Wat is BigLake?

biglake architectuur

Door BigLake tabellen te creëren in BigQuery of de BigLake connector te gebruiken op open-source engines, zoals Apache Spark, kunt u uw toegang tot gegevens in Amazon S3, Azure Data Lake Opslagen natuurlijk Google Cloud Storage.

De gegevens zijn toegankelijk via ondersteunde open gegevensformaten: Avro, CSV, JSON, ORC en Parquet. En sinds Google Cloud Next 2022, ook: Apache IJsberg, Deltameer en Apache Hudi.

BigLake breidt de high granularity security toegangscontrole van BigQuery uit tot het niveau van de tabel, rij of kolom. Met BigQuery Omni wordt dit beveiligingsbeleid consistent toegepast op andere cloudplatforms. Het maakt interoperabiliteit tussen datawarehouses en data lakes mogelijk door een enkele kopie van de gegevens te beheren.

Aangezien BigLake-tabellen een soort BigQuery-tabellen zijn, kunnen ze ook centraal in de gegevenscatalogus worden ontdekt en op schaal worden beheerd met behulp van Dataplex BigLake: verenigen van bestuur en beheer op schaal.

Demo - Hoe gebruik je BigLake?

In deze inleidende demo verkennen we de resultaten van een internationale triatlonwedstrijd. Het bestand bevat de volgende informatie over de deelnemers:

  • ID
  • Achternaam
  • E-mail
  • Land
  • Duur in minuten


Het bestand wordt opgeslagen in Google Cloud Storage. Laten we kijken wie de snelste tijd heeft met behoud van de privacy van de deelnemers.

1. Maak eerst een verbinding

Het eerste wat we moeten doen is een externe verbinding maken met onze gegevens. De BigLake-verbinding met Google Cloud Storage kan worden gemaakt op de servicepagina BigQuery.

Klik linksboven op "+ ADD DATA". Rechts verschijnt een nieuw venster, klik op "Verbindingen met externe gegevensbronnen", en vul de volgende velden in:

  1. Verbindingstype: kies "BigLake en functies op afstand".
  2. Verbindings ID: "gcs_triathlon_demo". 3.
  3. Gegevenslocatie: "europa-west1 (België)
  4. Naam en beschrijving van de vriend: optioneel, maar nuttig.
  5. Klik op "EEN VERBINDING MAKEN".
externe gegevensbron

Wanneer de verbinding is gemaakt, zien we deze in het linkerdeelvenster, onder "Externe verbindingen":

verbinding

Laten we de "Service account ID" kopiëren, want we moeten leesrechten verlenen aan deze service-account op de objectopslag.

2. Geef de service account leestoegang

Volgens het principe van de minste rechten, geen globale rechten toekennen aan service accounts die ze niet nodig hebben. In ons geval geven we toestemming om objecten te bekijken op emmerniveau.

Navigeer naar de Google Cloud Storage en geef leesrechten aan de emmer met ons gegevensbestand.

Ons bestand is opgeslagen in de emmer "biglake_demo_triathlon_results". We openen de emmer en navigeren naar het tabblad "VERGUNNINGEN". Hier verlenen we "Storage Object Viewer" aan de connections service account " bqcx-dummy-34l3@gcp-sa-bigquery-condel.iam.gserviceaccount.com " 

biglake_demo_triathlon_resultaten

3. Maak de BigLake tabel

De volgende stap is het aanmaken van onze BigLake tabel in een dataset genaamd "triathlon_demo", die zich bevindt in de regio "europa-west1", dezelfde regio waar onze gegevens zich bevinden.

In plaats van de BigLake tabel aan te maken via de gebruikersinterface, zullen we de dingen veranderen en hem aanmaken via SQL, met behulp van onze BigLake verbinding:

CREATE EXTERNAL TABLE `YOUR-PROJECT.triathlon_demo.gcs_triathlon_results` (

               id STRING,

               naam STRING,

               e-mail STRING,

               STRING land,

               duur INT64

)

- Onze BigLake naar GCS connector

WITH CONNECTION `Uw-Project.europe-west1.gcs_triathlon_demo`.

OPTIES (

               FORMAAT = "CSV",

               uris = ['gs://biglake_demo_triathlon_results/*.csv']]

)

BigQuery ondersteunt het laden van meerdere bronbestanden in één tabel. Gebruik hiervoor het jokerteken ("\*").

De bovenstaande query maakt de tabel BigLake aan:

laden van meerdere bronbestanden

4. Bescherming van de persoonsgegevens van de deelnemers

Met Dataplex kunnen we naadloos verenigd bestuur en beheer integreren in onze BigTable. In deze demo zullen we zien hoe we met behulp van taxonomieën de toegang op kolomniveau kunnen beperken.

Om een tagbeleid te maken, moet eerst een taxonomie worden gedefinieerd, wat gebeurt via de Dataplex Taxonomie pagina.

Klik op "CREËER EEN NIEUWE TAXONOMIE" en wij vullen het formulier in:

nieuwe taxonomie

Eenmaal gemaakt, passen we het toe op de kolommen die we willen beperken en die gevoelige informatie bevatten. Ga terug naar BigQuery en selecteer onze BigLake tabel. Klik op "EDIT SCHEMA", selecteer de kolommen "naam" en "e-mail", en klik op "ADD POLICY TAG". Selecteer het beleid en sla de wijzigingen op.

beschermde rekeningen

Nu zijn de kolommen beschermd. Laten we het testen!

5. Resultaat: Wie heeft de beste tijd?

Als alles is ingesteld, en het labelbeleid is toegepast, laten we eens kijken wie de snelste was.

geconfigureerd

Wanneer we het verzoek uitvoeren, krijgen we een bericht dat we geen toestemming hebben om de namen of e-mails van deelnemers te tonen. Dus ons beleid werkt!

Door deze velden uit te sluiten van de query, kunnen we eindelijk het resultaat zien:

resultaat

De onbekende deelnemer "51b93cd6" uit Ivoorkust heeft de kortste racetijd van 115 minuten.

6. Conclusie

BigLake dicht de kloof tussen waarde en data door datasilo's op cloudplatforms te elimineren en tegelijkertijd toegangscontrole met hoge granulariteit en meervoudige governance van gedistribueerde data te ondersteunen. Het is een tool die goed integreert in een multi-cloud organisatie.

Belangrijkste bevindingen van BigLake

- Beheer van een enkele kopie van de gegevens met een uniforme set kenmerken in data lakes en data warehouses.

- Zeer granulaire toegangscontrole op het multi-cloud platform.

- Integratie met open-source software en ondersteuning van open gegevensformaten.

- Voordelen van BigQuery

Meer weten?

Neem contact met ons op!

"Databricks vs Snowflake' | Journal du Net

"Databricks vs Snowflake' | Journal du Net

Thomas Dallemagne beantwoordt al je vragen over Databricks vs Snowflake in...
AWS Public Sector Summit 2024: Een diepe duik in innovatie en duurzaamheid

AWS Public Sector Summit 2024: Een diepe duik in de...

Ontdek de nieuwste innovaties en toezeggingen op het gebied van ...
Blog - Real-time analyse met Microsoft Fabric en Azure Event Hubs

Blog - Real-time analyse met...

Ontdek hoe je je Microsoft Fabric KQL-database (Kusto Qu...
Laten we samen innoveren
Gepassioneerd door data?

Contacteer ons