Mitä on data engineering?

Data engineering on osa-alue, jonka tavoitteena on tehdä datasta luotettavaa, saatavilla olevaa, skaalautuvaa ja analysoitavaa. Käytännössä se tarkoittaa sitä, että rakennetaan ja ylläpidetään järjestelmiä, joilla data:

  • kerätään eri lähteistä (sovellukset, tietokannat, IoT, API:t)

  • siirretään (batch ja/tai streaming)

  • puhdistetaan ja validoidaan

  • muunnetaan analytiikkaa ja ML:ää varten

  • varastoidaan (data lake / warehouse / lakehouse)

  • julkaistaan käytettäväksi (BI, raportointi, ML, tuotteet)

  • monitoroidaan ja suojataan (laatu, tietoturva, governance)

Data engineerin työ on usein “selkäranka” analytiikalle, BI:lle ja koneoppimiselle.

Työkalut

1) Lakehouse- ja data-alustat (Databricks-tyyppiset)

  • Databricks

  • Snowflake

  • Google BigQuery

  • Amazon Redshift

  • Microsoft Fabric

  • Azure Synapse Analytics

  • Starburst (Trino Enterprise)

  • Dremio

  • ClickHouse Cloud

  • SingleStore

  • Teradata Vantage

  • Oracle Autonomous Data Warehouse

  • IBM Db2 Warehouse

  • Vertica

  • Greenplum

2) Data lake -teknologiat (objektitallennus)

  • Amazon S3

  • Azure Data Lake Storage (ADLS Gen2)

  • Google Cloud Storage (GCS)

  • MinIO

  • Ceph

  • HDFS

3) Lakehouse-taulumuodot (table formats)

  • Delta Lake

  • Apache Iceberg

  • Apache Hudi

4) Datan ingestointi ja integraatio (ETL/ELT)

Cloud-managed

  • Fivetran

  • Airbyte

  • Stitch

  • Matillion

  • Talend

  • Informatica

  • Boomi

  • Azure Data Factory

  • AWS Glue

  • Google Cloud Data Fusion

  • Google Cloud Dataflow (myös processing)

  • Hevo Data

  • Rivery

  • SnapLogic

  • MuleSoft

Open source / dev-tyylinen

  • Singer

  • Meltano

  • Apache NiFi

  • Logstash

  • Debezium (CDC)

5) CDC (Change Data Capture) ja replikaatio

  • Debezium

  • Kafka Connect

  • Striim

  • Qlik Replicate (Attunity)

  • AWS Database Migration Service (DMS)

  • Oracle GoldenGate

  • Fivetran HVR

  • Bottled Water (Postgres → Kafka)

6) Streaming ja tapahtumaputket

Brokerit / event log

  • Apache Kafka

  • Confluent Cloud

  • Redpanda

  • Apache Pulsar

  • Amazon Kinesis

  • Google Pub/Sub

  • Azure Event Hubs

  • RabbitMQ

  • NATS

Stream processing

  • Apache Flink

  • Spark Structured Streaming

  • Kafka Streams

  • ksqlDB

  • Google Dataflow (Apache Beam)

  • Apache Beam

  • AWS Kinesis Data Analytics

  • Azure Stream Analytics

  • Materialize

  • RisingWave

7) Orkestrointi (workflows)

  • Apache Airflow

  • Dagster

  • Prefect

  • Argo Workflows

  • Kubeflow Pipelines

  • Azure Data Factory pipelines

  • AWS Step Functions

  • Google Cloud Composer (Airflow)

  • Luigi

  • Oozie

  • Flyte

8) Transformaatio ja mallinnus (ELT)

  • dbt Core

  • dbt Cloud

  • SQLMesh

  • Dataform

  • Apache Spark (PySpark / Scala)

  • Apache Beam

  • Trino

  • Presto

  • Apache Hive

  • Apache Pig (legacy)

  • pandas / Polars (pienemmät datat)

9) Query engine / SQL-kerros

  • Trino

  • Presto

  • Athena

  • BigQuery

  • Snowflake

  • Spark SQL

  • DuckDB

  • ClickHouse

  • Apache Drill

  • Apache Impala

10) Data warehouse -mallinnus ja semanttinen kerros

  • Looker (LookML)

  • dbt Semantic Layer

  • Cube

  • AtScale

  • MetricFlow

  • Microsoft Fabric Semantic Model (Power BI)

  • ThoughtSpot Modeling

  • SAP BW / Datasphere

11) Metatieto, katalogi ja lineage

  • DataHub

  • Apache Atlas

  • OpenMetadata

  • Amundsen

  • Collibra

  • Alation

  • Microsoft Purview

  • Google Dataplex

  • AWS Glue Data Catalog

  • Informatica EDC

  • Monte Carlo (osittain myös observability)

12) Data quality ja testaus

  • Great Expectations

  • Soda (Soda Core / Soda Cloud)

  • Deequ

  • dbt tests

  • Pandera

  • TFDV (TensorFlow Data Validation)

  • Monte Carlo

  • Bigeye

  • Anomalo

  • Datafold

  • Superconductive GE Cloud

13) Observability ja monitorointi

  • Monte Carlo

  • Datadog

  • Prometheus

  • Grafana

  • New Relic

  • Splunk

  • Elastic Observability

  • OpenTelemetry

  • PagerDuty

  • Sentry (erityisesti sovelluspuoli)

14) Data governance ja pääsynhallinta

  • Immuta

  • Privacera

  • Okera

  • Apache Ranger

  • AWS Lake Formation

  • Microsoft Purview

  • Collibra

  • BigQuery IAM + policy tags

  • Snowflake RBAC

  • Unity Catalog (Databricks)

15) Salaisuudet ja avainten hallinta

  • HashiCorp Vault

  • AWS Secrets Manager

  • AWS KMS

  • Azure Key Vault

  • Google Secret Manager

  • Doppler

  • 1Password Secrets Automation

16) Tietokannat (lähteet ja operatiivinen data)

Relational (OLTP)

  • PostgreSQL

  • MySQL

  • MariaDB

  • SQL Server

  • Oracle

  • DB2

NoSQL

  • MongoDB

  • Cassandra

  • DynamoDB

  • Couchbase

  • HBase

  • Firestore

Search / document

  • Elasticsearch

  • OpenSearch

  • Solr

Time-series

  • InfluxDB

  • TimescaleDB

  • Prometheus TSDB

Graph

  • Neo4j

  • Amazon Neptune

  • TigerGraph

17) Data pipeline -koodaus ja ohjelmointi

  • Python

  • SQL

  • Scala

  • Java

  • Go

  • Rust (harvinaisempi, mutta kasvussa)

  • TypeScript (erityisesti data tooling + infra)

Kirjastoja:

  • pandas

  • Polars

  • PyArrow

  • Apache Spark

  • Dask

  • Ray

  • SQLAlchemy

  • DuckDB Python

18) Infra ja container-ympäristöt

  • Docker

  • Kubernetes

  • Helm

  • Terraform

  • Pulumi

  • Ansible

  • Packer

  • Crossplane

  • Istio (jos service mesh)

19) BI ja raportointi (data engineeringin “asiakkaat”)

  • Power BI

  • Tableau

  • Looker

  • Metabase

  • Superset

  • Qlik Sense

  • ThoughtSpot

  • Mode

  • Sigma Computing

  • Redash

20) ML / Feature store (lähellä data engineeringiä)

  • Databricks Feature Store

  • Feast

  • Tecton

  • Hopsworks

  • Vertex AI Feature Store

  • SageMaker Feature Store

21) Versionhallinta ja CI/CD (data engineeringille)

  • GitHub

  • GitLab

  • Bitbucket

  • GitHub Actions

  • GitLab CI

  • Jenkins

  • CircleCI

  • Argo CD

  • Flux

22) Data engineering -spesifit “modern stack” -työkalut

  • Terraform + dbt + Airflow (yleinen kombinaatio)

  • Dagster + dbt

  • Fivetran + Snowflake + dbt

  • Airbyte + BigQuery + dbt

  • Databricks + Delta Lake + Unity Catalog

Yhteenveto

Data engineering = datan tuotantoketjujen rakentamista: ingest → processing → storage → julkaisu → laatu → monitorointi → tietoturva.