Om du jobbar med data i Python så är Pandas en riktig arbetsmyra: den ger dig bra datastrukturer (som DataFrame och Series) och massor av hjälpverktyg för att läsa in, organisera, filtrera, sammanfoga och analysera data. Biblioteket bygger på NumPy och har blivit en grundpelare i Python-data-ekosystemet.
Pandas namn kommer från “panel data”-termen från ekonometrin och var från början utvecklad av Wes McKinney för arbete med finansiella tidsserier. Huvudmetaforen är att du kan jobba med tabeller som liknar Excel eller SQL-tabeller (men i Python), med rader och kolumner, indexering, tidsserier, och stöd för att hantera “saknade” värden på ett smidigt sätt.
Med Pandas kan du till exempel läsa in filer som CSV, Excel eller databastabeller, göra grupp- eller pivottabeller, tidsserieanalys, hopfoga olika dataset och mycket mer. Det gör biblioteket väldigt användbart för dataanalytiker, forskare och utvecklare som vill bearbeta och förstå data innan de går vidare till visualisering eller maskininlärning. En liten varning: när datasetet börjar bli väldigt stort kan man märka att Pandas kräver att all data ryms i minnet, vilket ibland begränsar skalningen - så för “storskaliga” dataset kan man behöva komplettera med andra verktyg.