Mitä on data engineering?
Data engineering on osa-alue, jonka tavoitteena on tehdä datasta luotettavaa, saatavilla olevaa, skaalautuvaa ja analysoitavaa. Käytännössä se tarkoittaa sitä, että rakennetaan ja ylläpidetään järjestelmiä, joilla data:
kerätään eri lähteistä (sovellukset, tietokannat, IoT, API:t)
siirretään (batch ja/tai streaming)
puhdistetaan ja validoidaan
muunnetaan analytiikkaa ja ML:ää varten
varastoidaan (data lake / warehouse / lakehouse)
julkaistaan käytettäväksi (BI, raportointi, ML, tuotteet)
monitoroidaan ja suojataan (laatu, tietoturva, governance)
Data engineerin työ on usein “selkäranka” analytiikalle, BI:lle ja koneoppimiselle.
Työkalut
1) Lakehouse- ja data-alustat (Databricks-tyyppiset)
Databricks
Snowflake
Google BigQuery
Amazon Redshift
Microsoft Fabric
Azure Synapse Analytics
Starburst (Trino Enterprise)
Dremio
ClickHouse Cloud
SingleStore
Teradata Vantage
Oracle Autonomous Data Warehouse
IBM Db2 Warehouse
Vertica
Greenplum
2) Data lake -teknologiat (objektitallennus)
Amazon S3
Azure Data Lake Storage (ADLS Gen2)
Google Cloud Storage (GCS)
MinIO
Ceph
HDFS
3) Lakehouse-taulumuodot (table formats)
Delta Lake
Apache Iceberg
Apache Hudi
4) Datan ingestointi ja integraatio (ETL/ELT)
Cloud-managed
Fivetran
Airbyte
Stitch
Matillion
Talend
Informatica
Boomi
Azure Data Factory
AWS Glue
Google Cloud Data Fusion
Google Cloud Dataflow (myös processing)
Hevo Data
Rivery
SnapLogic
MuleSoft
Open source / dev-tyylinen
Singer
Meltano
Apache NiFi
Logstash
Debezium (CDC)
5) CDC (Change Data Capture) ja replikaatio
Debezium
Kafka Connect
Striim
Qlik Replicate (Attunity)
AWS Database Migration Service (DMS)
Oracle GoldenGate
Fivetran HVR
Bottled Water (Postgres → Kafka)
6) Streaming ja tapahtumaputket
Brokerit / event log
Apache Kafka
Confluent Cloud
Redpanda
Apache Pulsar
Amazon Kinesis
Google Pub/Sub
Azure Event Hubs
RabbitMQ
NATS
Stream processing
Apache Flink
Spark Structured Streaming
Kafka Streams
ksqlDB
Google Dataflow (Apache Beam)
Apache Beam
AWS Kinesis Data Analytics
Azure Stream Analytics
Materialize
RisingWave
7) Orkestrointi (workflows)
Apache Airflow
Dagster
Prefect
Argo Workflows
Kubeflow Pipelines
Azure Data Factory pipelines
AWS Step Functions
Google Cloud Composer (Airflow)
Luigi
Oozie
Flyte
8) Transformaatio ja mallinnus (ELT)
dbt Core
dbt Cloud
SQLMesh
Dataform
Apache Spark (PySpark / Scala)
Apache Beam
Trino
Presto
Apache Hive
Apache Pig (legacy)
pandas / Polars (pienemmät datat)
9) Query engine / SQL-kerros
Trino
Presto
Athena
BigQuery
Snowflake
Spark SQL
DuckDB
ClickHouse
Apache Drill
Apache Impala
10) Data warehouse -mallinnus ja semanttinen kerros
Looker (LookML)
dbt Semantic Layer
Cube
AtScale
MetricFlow
Microsoft Fabric Semantic Model (Power BI)
ThoughtSpot Modeling
SAP BW / Datasphere
11) Metatieto, katalogi ja lineage
DataHub
Apache Atlas
OpenMetadata
Amundsen
Collibra
Alation
Microsoft Purview
Google Dataplex
AWS Glue Data Catalog
Informatica EDC
Monte Carlo (osittain myös observability)
12) Data quality ja testaus
Great Expectations
Soda (Soda Core / Soda Cloud)
Deequ
dbt tests
Pandera
TFDV (TensorFlow Data Validation)
Monte Carlo
Bigeye
Anomalo
Datafold
Superconductive GE Cloud
13) Observability ja monitorointi
Monte Carlo
Datadog
Prometheus
Grafana
New Relic
Splunk
Elastic Observability
OpenTelemetry
PagerDuty
Sentry (erityisesti sovelluspuoli)
14) Data governance ja pääsynhallinta
Immuta
Privacera
Okera
Apache Ranger
AWS Lake Formation
Microsoft Purview
Collibra
BigQuery IAM + policy tags
Snowflake RBAC
Unity Catalog (Databricks)
15) Salaisuudet ja avainten hallinta
HashiCorp Vault
AWS Secrets Manager
AWS KMS
Azure Key Vault
Google Secret Manager
Doppler
1Password Secrets Automation
16) Tietokannat (lähteet ja operatiivinen data)
Relational (OLTP)
PostgreSQL
MySQL
MariaDB
SQL Server
Oracle
DB2
NoSQL
MongoDB
Cassandra
DynamoDB
Couchbase
HBase
Firestore
Search / document
Elasticsearch
OpenSearch
Solr
Time-series
InfluxDB
TimescaleDB
Prometheus TSDB
Graph
Neo4j
Amazon Neptune
TigerGraph
17) Data pipeline -koodaus ja ohjelmointi
Python
SQL
Scala
Java
Go
Rust (harvinaisempi, mutta kasvussa)
TypeScript (erityisesti data tooling + infra)
Kirjastoja:
pandas
Polars
PyArrow
Apache Spark
Dask
Ray
SQLAlchemy
DuckDB Python
18) Infra ja container-ympäristöt
Docker
Kubernetes
Helm
Terraform
Pulumi
Ansible
Packer
Crossplane
Istio (jos service mesh)
19) BI ja raportointi (data engineeringin “asiakkaat”)
Power BI
Tableau
Looker
Metabase
Superset
Qlik Sense
ThoughtSpot
Mode
Sigma Computing
Redash
20) ML / Feature store (lähellä data engineeringiä)
Databricks Feature Store
Feast
Tecton
Hopsworks
Vertex AI Feature Store
SageMaker Feature Store
21) Versionhallinta ja CI/CD (data engineeringille)
GitHub
GitLab
Bitbucket
GitHub Actions
GitLab CI
Jenkins
CircleCI
Argo CD
Flux
22) Data engineering -spesifit “modern stack” -työkalut
Terraform + dbt + Airflow (yleinen kombinaatio)
Dagster + dbt
Fivetran + Snowflake + dbt
Airbyte + BigQuery + dbt
Databricks + Delta Lake + Unity Catalog
Yhteenveto
Data engineering = datan tuotantoketjujen rakentamista: ingest → processing → storage → julkaisu → laatu → monitorointi → tietoturva.