BigLake: waarom en hoe te gebruiken?
Organisaties zien hun gegevens in versneld tempo groeien. En terwijl teams oplossingen bouwen met de juiste tools, belanden gegevens vaak op verschillende locaties, in verschillende formaten en zelfs op verschillende cloudplatforms. Deze steeds meer gedistribueerde gegevens leiden tot silo's, en datasilo's brengen hun eigen risico's en problemen met zich mee. Toch hebben deze gegevens een grote analytische waarde waarmee nieuwe en steeds veeleisender gebruikscases van klanten kunnen worden aangepakt.
Om zich te ontwikkelen in een groeiende digitale wereld moeten bedrijven datasilo's doorbreken en nieuwe analytische use cases mogelijk maken, ongeacht waar de gegevens zijn opgeslagen of het formaat ervan.
Om deze kloof tussen gegevens en waarde te overbruggen, heeft Google een nieuwe functie geïntroduceerd: BigLake. BigLake bouwt voort op de jarenlange innovatie van BigQuery, het is een storage engine die data lakes en data warehouses verenigt, terwijl het toegangscontrole met hoge granulariteit, prestatieversnelling op multi-cloud opslag en ondersteuning voor open bestandsformaten biedt.
Architectuur - Wat is BigLake?

Door BigLake tabellen te creëren in BigQuery of de BigLake connector te gebruiken op open-source engines, zoals Apache Spark, kunt u uw toegang tot gegevens in Amazon S3, Azure Data Lake Opslagen natuurlijk Google Cloud Storage.
De gegevens zijn toegankelijk via ondersteunde open gegevensformaten: Avro, CSV, JSON, ORC en Parquet. En sinds Google Cloud Next 2022, ook: Apache IJsberg, Deltameer en Apache Hudi.
BigLake breidt de high granularity security toegangscontrole van BigQuery uit tot het niveau van de tabel, rij of kolom. Met BigQuery Omni wordt dit beveiligingsbeleid consistent toegepast op andere cloudplatforms. Het maakt interoperabiliteit tussen datawarehouses en data lakes mogelijk door een enkele kopie van de gegevens te beheren.
Aangezien BigLake-tabellen een soort BigQuery-tabellen zijn, kunnen ze ook centraal in de gegevenscatalogus worden ontdekt en op schaal worden beheerd met behulp van Dataplex BigLake: verenigen van bestuur en beheer op schaal.
Demo - Hoe gebruik je BigLake?
In deze inleidende demo verkennen we de resultaten van een internationale triatlonwedstrijd. Het bestand bevat de volgende informatie over de deelnemers:
- ID
- Achternaam
- Land
- Duur in minuten
Het bestand wordt opgeslagen in Google Cloud Storage. Laten we kijken wie de snelste tijd heeft met behoud van de privacy van de deelnemers.
1. Maak eerst een verbinding
Het eerste wat we moeten doen is een externe verbinding maken met onze gegevens. De BigLake-verbinding met Google Cloud Storage kan worden gemaakt op de servicepagina BigQuery.
Klik linksboven op "+ ADD DATA". Rechts verschijnt een nieuw venster, klik op "Verbindingen met externe gegevensbronnen", en vul de volgende velden in:
- Verbindingstype: kies "BigLake en functies op afstand".
- Verbindings ID: "gcs_triathlon_demo". 3.
- Gegevenslocatie: "europa-west1 (België)
- Naam en beschrijving van de vriend: optioneel, maar nuttig.
- Klik op "EEN VERBINDING MAKEN".

Wanneer de verbinding is gemaakt, zien we deze in het linkerdeelvenster, onder "Externe verbindingen":

Laten we de "Service account ID" kopiëren, want we moeten leesrechten verlenen aan deze service-account op de objectopslag.
2. Geef de service account leestoegang
Volgens het principe van de minste rechten, geen globale rechten toekennen aan service accounts die ze niet nodig hebben. In ons geval geven we toestemming om objecten te bekijken op emmerniveau.
Navigeer naar de Google Cloud Storage en geef leesrechten aan de emmer met ons gegevensbestand.
Ons bestand is opgeslagen in de emmer "biglake_demo_triathlon_results". We openen de emmer en navigeren naar het tabblad "VERGUNNINGEN". Hier verlenen we "Storage Object Viewer" aan de connections service account " bqcx-dummy-34l3@gcp-sa-bigquery-condel.iam.gserviceaccount.com "

3. Maak de BigLake tabel
De volgende stap is het aanmaken van onze BigLake tabel in een dataset genaamd "triathlon_demo", die zich bevindt in de regio "europa-west1", dezelfde regio waar onze gegevens zich bevinden.
In plaats van de BigLake tabel aan te maken via de gebruikersinterface, zullen we de dingen veranderen en hem aanmaken via SQL, met behulp van onze BigLake verbinding:
CREATE EXTERNAL TABLE `YOUR-PROJECT.triathlon_demo.gcs_triathlon_results` (
id STRING,
naam STRING,
e-mail STRING,
STRING land,
duur INT64
)
- Onze BigLake naar GCS connector
WITH CONNECTION `Uw-Project.europe-west1.gcs_triathlon_demo`.
OPTIES (
FORMAAT = "CSV",
uris = ['gs://biglake_demo_triathlon_results/*.csv']]
)
BigQuery ondersteunt het laden van meerdere bronbestanden in één tabel. Gebruik hiervoor het jokerteken ("\*").
De bovenstaande query maakt de tabel BigLake aan:

4. Bescherming van de persoonsgegevens van de deelnemers
Met Dataplex kunnen we naadloos verenigd bestuur en beheer integreren in onze BigTable. In deze demo zullen we zien hoe we met behulp van taxonomieën de toegang op kolomniveau kunnen beperken.
Om een tagbeleid te maken, moet eerst een taxonomie worden gedefinieerd, wat gebeurt via de Dataplex Taxonomie pagina.
Klik op "CREËER EEN NIEUWE TAXONOMIE" en wij vullen het formulier in:

Eenmaal gemaakt, passen we het toe op de kolommen die we willen beperken en die gevoelige informatie bevatten. Ga terug naar BigQuery en selecteer onze BigLake tabel. Klik op "EDIT SCHEMA", selecteer de kolommen "naam" en "e-mail", en klik op "ADD POLICY TAG". Selecteer het beleid en sla de wijzigingen op.

Nu zijn de kolommen beschermd. Laten we het testen!
5. Resultaat: Wie heeft de beste tijd?
Als alles is ingesteld, en het labelbeleid is toegepast, laten we eens kijken wie de snelste was.

Wanneer we het verzoek uitvoeren, krijgen we een bericht dat we geen toestemming hebben om de namen of e-mails van deelnemers te tonen. Dus ons beleid werkt!
Door deze velden uit te sluiten van de query, kunnen we eindelijk het resultaat zien:

De onbekende deelnemer "51b93cd6" uit Ivoorkust heeft de kortste racetijd van 115 minuten.
6. Conclusie
BigLake dicht de kloof tussen waarde en data door datasilo's op cloudplatforms te elimineren en tegelijkertijd toegangscontrole met hoge granulariteit en meervoudige governance van gedistribueerde data te ondersteunen. Het is een tool die goed integreert in een multi-cloud organisatie.
Belangrijkste bevindingen van BigLake
- Beheer van een enkele kopie van de gegevens met een uniforme set kenmerken in data lakes en data warehouses.
- Zeer granulaire toegangscontrole op het multi-cloud platform.
- Integratie met open-source software en ondersteuning van open gegevensformaten.
- Voordelen van BigQuery
Meer weten?
Neem contact met ons op!