Mitä on data engineering?

Data engineering on osa-alue, jonka tavoitteena on tehdä datasta luotettavaa, saatavilla olevaa, skaalautuvaa ja analysoitavaa. Käytännössä se tarkoittaa sitä, että rakennetaan ja ylläpidetään järjestelmiä, joilla data:

kerätään eri lähteistä (sovellukset, tietokannat, IoT, API:t)
siirretään (batch ja/tai streaming)
puhdistetaan ja validoidaan
muunnetaan analytiikkaa ja ML:ää varten
varastoidaan (data lake / warehouse / lakehouse)
julkaistaan käytettäväksi (BI, raportointi, ML, tuotteet)
monitoroidaan ja suojataan (laatu, tietoturva, governance)

Data engineerin työ on usein “selkäranka” analytiikalle, BI:lle ja koneoppimiselle.

Työkalut

1) Lakehouse- ja data-alustat (Databricks-tyyppiset)

Databricks
Snowflake
Google BigQuery
Amazon Redshift
Microsoft Fabric
Azure Synapse Analytics
Starburst (Trino Enterprise)
Dremio
ClickHouse Cloud
SingleStore
Teradata Vantage
Oracle Autonomous Data Warehouse
IBM Db2 Warehouse
Vertica
Greenplum

2) Data lake -teknologiat (objektitallennus)

Amazon S3
Azure Data Lake Storage (ADLS Gen2)
Google Cloud Storage (GCS)
MinIO
Ceph
HDFS

3) Lakehouse-taulumuodot (table formats)

Delta Lake
Apache Iceberg
Apache Hudi

4) Datan ingestointi ja integraatio (ETL/ELT)

Cloud-managed

Fivetran
Airbyte
Stitch
Matillion
Talend
Informatica
Boomi
Azure Data Factory
AWS Glue
Google Cloud Data Fusion
Google Cloud Dataflow (myös processing)
Hevo Data
Rivery
SnapLogic
MuleSoft

Open source / dev-tyylinen

Singer
Meltano
Apache NiFi
Logstash
Debezium (CDC)

5) CDC (Change Data Capture) ja replikaatio

Debezium
Kafka Connect
Striim
Qlik Replicate (Attunity)
AWS Database Migration Service (DMS)
Oracle GoldenGate
Fivetran HVR
Bottled Water (Postgres → Kafka)

6) Streaming ja tapahtumaputket

Brokerit / event log

Apache Kafka
Confluent Cloud
Redpanda
Apache Pulsar
Amazon Kinesis
Google Pub/Sub
Azure Event Hubs
RabbitMQ
NATS

Stream processing

Apache Flink
Spark Structured Streaming
Kafka Streams
ksqlDB
Google Dataflow (Apache Beam)
Apache Beam
AWS Kinesis Data Analytics
Azure Stream Analytics
Materialize
RisingWave

7) Orkestrointi (workflows)

Apache Airflow
Dagster
Prefect
Argo Workflows
Kubeflow Pipelines
Azure Data Factory pipelines
AWS Step Functions
Google Cloud Composer (Airflow)
Luigi
Oozie
Flyte

8) Transformaatio ja mallinnus (ELT)

dbt Core
dbt Cloud
SQLMesh
Dataform
Apache Spark (PySpark / Scala)
Apache Beam
Trino
Presto
Apache Hive
Apache Pig (legacy)
pandas / Polars (pienemmät datat)

9) Query engine / SQL-kerros

Trino
Presto
Athena
BigQuery
Snowflake
Spark SQL
DuckDB
ClickHouse
Apache Drill
Apache Impala

10) Data warehouse -mallinnus ja semanttinen kerros

Looker (LookML)
dbt Semantic Layer
Cube
AtScale
MetricFlow
Microsoft Fabric Semantic Model (Power BI)
ThoughtSpot Modeling
SAP BW / Datasphere

11) Metatieto, katalogi ja lineage

DataHub
Apache Atlas
OpenMetadata
Amundsen
Collibra
Alation
Microsoft Purview
Google Dataplex
AWS Glue Data Catalog
Informatica EDC
Monte Carlo (osittain myös observability)

12) Data quality ja testaus

Great Expectations
Soda (Soda Core / Soda Cloud)
Deequ
dbt tests
Pandera
TFDV (TensorFlow Data Validation)
Monte Carlo
Bigeye
Anomalo
Datafold
Superconductive GE Cloud

13) Observability ja monitorointi

Monte Carlo
Datadog
Prometheus
Grafana
New Relic
Splunk
Elastic Observability
OpenTelemetry
PagerDuty
Sentry (erityisesti sovelluspuoli)

14) Data governance ja pääsynhallinta

Immuta
Privacera
Okera
Apache Ranger
AWS Lake Formation
Microsoft Purview
Collibra
BigQuery IAM + policy tags
Snowflake RBAC
Unity Catalog (Databricks)

15) Salaisuudet ja avainten hallinta

HashiCorp Vault
AWS Secrets Manager
AWS KMS
Azure Key Vault
Google Secret Manager
Doppler
1Password Secrets Automation

16) Tietokannat (lähteet ja operatiivinen data)

Relational (OLTP)

PostgreSQL
MySQL
MariaDB
SQL Server
Oracle
DB2

NoSQL

MongoDB
Cassandra
DynamoDB
Couchbase
HBase
Firestore

Search / document

Elasticsearch
OpenSearch
Solr

Time-series

InfluxDB
TimescaleDB
Prometheus TSDB

Graph

Neo4j
Amazon Neptune
TigerGraph

17) Data pipeline -koodaus ja ohjelmointi

Python
SQL
Scala
Java
Go
Rust (harvinaisempi, mutta kasvussa)
TypeScript (erityisesti data tooling + infra)

Kirjastoja:

pandas
Polars
PyArrow
Apache Spark
Dask
Ray
SQLAlchemy
DuckDB Python

18) Infra ja container-ympäristöt

Docker
Kubernetes
Helm
Terraform
Pulumi
Ansible
Packer
Crossplane
Istio (jos service mesh)

19) BI ja raportointi (data engineeringin “asiakkaat”)

Power BI
Tableau
Looker
Metabase
Superset
Qlik Sense
ThoughtSpot
Mode
Sigma Computing
Redash

20) ML / Feature store (lähellä data engineeringiä)

Databricks Feature Store
Feast
Tecton
Hopsworks
Vertex AI Feature Store
SageMaker Feature Store

21) Versionhallinta ja CI/CD (data engineeringille)

GitHub
GitLab
Bitbucket
GitHub Actions
GitLab CI
Jenkins
CircleCI
Argo CD
Flux

22) Data engineering -spesifit “modern stack” -työkalut

Terraform + dbt + Airflow (yleinen kombinaatio)
Dagster + dbt
Fivetran + Snowflake + dbt
Airbyte + BigQuery + dbt
Databricks + Delta Lake + Unity Catalog

Yhteenveto

Data engineering = datan tuotantoketjujen rakentamista: ingest → processing → storage → julkaisu → laatu → monitorointi → tietoturva.