ETL är i princip “det stora datalastningsmaskineriet” bakom många BI- och analyslösningar. I extraktionsfasen får du ut data från olika system - relationella databaser, filsystem, API:er med mera. I transformeringen förädlas dessa data: rensas, mappas, kodar om eller aggregeras så att de passar målsystemets krav. Slutligen laddas de in i ett enhetligt mål, såsom ett datalager eller en datasjö.
Vad som gör ETL intressant (och ibland komplext) är att källorna är så olika och målen så krävande: du måste hantera olika format, olika update-cykler, stora volymer och krav på datakvalitet och konsistens. Under resans gång dyker saker upp som “måste vi ha historik?”, “behöver vi mikro-batchar eller realtidsflöden?”, eller “ska vi göra transformationen före eller efter laddning (ETL vs ELT)?” När du väl har ett bra ETL-flöde på plats har du en solid grund för dashboards, prognoser och datadrivna beslut.