DuckDB: Die In-Process-Datenbank für Analysen direkt im Code

DuckDB ist eine relationale Datenbank, die für analytische Workloads entwickelt wurde – ähnlich wie PostgreSQL oder SQLite, aber mit einem besonderen Fokus auf schnelle, speicherinterne Abfragen. Sie lässt sich nahtlos in Python, R, JavaScript oder andere Umgebungen einbetten und eignet sich hervorragend für Data-Science-, Analyse- und ETL-Prozesse.

Zielsetzung und Besonderheiten

DuckDB verfolgt das Konzept einer „in-process analytical database“. Das bedeutet:

Keine separate Server-Komponente
Vollständige SQL-Unterstützung
Optimiert für spaltenbasierte Analysen (OLAP)
Direkter Zugriff auf lokale Dateien (z. B. CSV, Parquet)
Integration in Programmiersprachen wie Python oder R

Im Gegensatz zu klassischen Datenbanksystemen muss DuckDB nicht installiert oder konfiguriert werden. Es läuft direkt im Prozess, ist portabel und extrem schnell – besonders bei der Verarbeitung großer Datenmengen im Arbeitsspeicher.

Vergleich: DuckDB vs. SQLite

Merkmal	DuckDB	SQLite
Fokus	Analytisch (OLAP)	Transaktional (OLTP)
Datenlayout	Spaltenbasiert	Zeilenbasiert
SQL-Unterstützung	Sehr umfangreich	Grundlegend
Performance	Höher bei komplexen Abfragen	Höher bei einfachen Schreiboperationen
Python-Integration	Sehr gut mit Pandas/Arrow	Möglich, aber eingeschränkt

Hauptfunktionen

1. Vollständige SQL-Engine

DuckDB unterstützt komplexe SQL-Abfragen – inklusive:

Joins (inner, outer, cross)
Window Functions
Common Table Expressions (CTEs)
Aggregationen, Groupings und Subqueries

2. Native Dateiunterstützung

DuckDB kann direkt auf folgende Dateiformate zugreifen:

CSV
Parquet
JSON (eingeschränkt)
SQLite-Dumps

Beispiel (in Python):

import duckdb

# Direkte Abfrage auf CSV-Datei
duckdb.query("SELECT COUNT(*) FROM 'daten.csv'")

3. Integration mit Pandas und Arrow

DuckDB lässt sich nahtlos mit Pandas-DataFrames und Apache Arrow integrieren:

import duckdb
import pandas as pd

df = pd.read_csv("daten.csv")
result = duckdb.query("SELECT AVG(preis) FROM df").to_df()

Die Daten müssen nicht vorher in eine Datenbank importiert werden – DuckDB arbeitet direkt mit dem DataFrame.

4. Einbettbarkeit und Portabilität

DuckDB kann in Python, R, C++, JavaScript (via WebAssembly) und anderen Umgebungen eingebettet werden. Die gesamte Engine ist in einer einzigen Bibliothek enthalten – ideal für portable Datenanalyse-Workflows.

5. Parquet als First-Class Citizen

DuckDB unterstützt Parquet-Dateien direkt – mit extrem hoher Performance:

SELECT COUNT(*) FROM 'daten.parquet'

Auch das Schreiben ist möglich:

COPY (SELECT * FROM daten) TO 'export.parquet' (FORMAT 'parquet');

Typische Anwendungsfälle

Explorative Datenanalyse in Jupyter Notebooks
ETL-Prozesse mit Pandas oder Arrow
Analyse von Data-Lake-Dateien ohne Import
Lightweight-Alternative zu DWH-Systemen für kleine/mittlere Projekte
Schnellstart-Analysen direkt auf CSV/Parquet-Dateien

Vorteile von DuckDB

Kein Server, keine Konfiguration
Extrem schnelle Abfragen dank spaltenbasierter Engine
Einfache Integration in bestehende Python-/R-Workflows
Ideal für lokale oder eingebettete Analysen
Unterstützt Standard-SQL
Parquet- und Pandas-Kompatibilität

Grenzen und Einschränkungen

Nicht für produktive OLTP-Systeme gedacht
Kein Multi-User-Zugriff (da In-Process)
Kein permanenter Background-Server oder REST-Interface
Noch relativ jung, daher nicht in jedem Bereich vollständig ausgereift

Fazit

DuckDB ist ein leistungsfähiges Werkzeug für alle, die mit strukturierten Daten arbeiten – insbesondere in der Datenanalyse und Wissenschaft. Durch die Kombination aus Performance, Einfachheit und Flexibilität eignet es sich hervorragend für moderne Workflows, bei denen SQL, Pandas, Parquet und interaktive Entwicklung aufeinandertreffen. Wer eine portable, schnelle und leicht integrierbare Datenbank sucht, sollte DuckDB unbedingt ausprobieren.

Weitere Informationen: https://duckdb.org https://github.com/duckdb/duckdb