Perché ho passato un mese a testare le novità Databricks

Lavoro con Databricks da 4 anni. Ho visto uscire mille feature, la maggior parte delle quali promettevano di “rivoluzionare” il data engineering e poi finivano nel dimenticatoio dopo 6 mesi.

Ma gennaio 2026 è stato diverso. Tre annunci in 3 settimane:

  1. Lakebase GA - Postgres serverless sul lakehouse
  2. AI Agent Mode - L’AI che scrive davvero le pipeline
  3. Delta Lake 4.0 UniForm - Fine delle guerre di formato

Mi sono detto: “Ok, questa volta testo tutto prima di cantare vittoria”. Ho preso un progetto reale (migrazione da Redshift) e ho provato a usarli in produzione. Ecco cosa è successo.

Lakebase: finalmente un data warehouse che non mi spenna

Il problema che avevo

Il mio team usa Redshift per analytics. Costo mensile: $3.200. E metà del tempo quei cluster stanno lì a girare vuoti perché sviluppiamo solo 8 ore al giorno.

Ho provato Lakebase su un progetto pilota. La differenza? Scale-to-zero. Quando nessuno fa query, pago zero. Quando qualcuno fa query, scala automaticamente.

La migrazione che ho fatto

# Script che ho usato io per migrare da Redshift
from databricks import sql
import psycopg2

# Connessione Redshift
redshift = psycopg2.connect(host='...', database='analytics')

# Connessione Lakebase  
lakebase = sql.connect(
    server_hostname='xxx.cloud.databricks.com',
    http_path='/sql/1.0/warehouses/lakebase-id',
    access_token='...'
)

# Migrazione
for table in ['customers', 'orders', 'events']:
    df = pd.read_sql(f"SELECT * FROM {table}", redshift)
    spark_df = spark.createDataFrame(df)
    spark_df.write.format("delta").saveAsTable(table)

Risultato? 20 minuti di lavoro, Tableau ha funzionato subito (cambiata solo la connection string), e le query erano più veloci del 15%.

Il killer feature: branching istantaneo

Stavo facendo testing su dati di produzione. Solito casino: copio i dati, li maschero, li metto in un ambiente separato. Tempo: 2 ore.

Con Lakebase:

CREATE BRANCH testing FROM production;
USE BRANCH testing;
-- Faccio quello che voglio
DROP BRANCH testing;

Tempo: 30 secondi. E zero costi di storage duplicato.

I numeri del risparmio (reali)

MeseRedshiftLakebaseRisparmio
Gennaio$3.200$1.180$2.020
Febbraio$3.350$1.240$2.110

$2.000 al mese di risparmio. Su un progetto medio. Se scaliamo a tutta l’azienda, parliamo di $25.000+ all’anno.

Quando NON usare Lakebase

Non è tutto oro. Ho scoperto che:

  • ❌ Non serve per ETL pesanti (TB di dati) - usate Delta Tables
  • ❌ Non fa streaming - Structured Streaming è meglio
  • ❌ Limite 8TB - per dataset più grandi serve federazione

Ma per BI, analytics, query ad-hoc? Perfetto.

AI Agent Mode: l’AI che scrive codice… ma non fidarti ciecamente

Cosa ho provato

Il 6 gennaio ho aperto Databricks e ho visto “Agent Mode”. Ho pensato: “Ok, vediamo se è hype o funziona davvero”.

Test 1: “Crea una pipeline per ingerire dati da S3”

Ho scritto:

“Analizza s3://company-data/sales/ e crea una Delta table con ricavi giornalieri per regione”

L’AI ha:

  1. Letto la struttura S3
  2. Inferito lo schema dai file
  3. Creato la tabella con partitioning
  4. Scritto il job con scheduling
  5. Configurato monitoring

Tempo: 5 minuti. Quello che mi avrebbe preso 2 ore.

Ma attenzione: è ancora beta (e si vede)

Ho provato a fargli ottimizzare una query lenta. Ha suggerito di aggiungere Z-ordering sulla colonna sbagliata. Se non controllavo, avrei peggiorato le performance.

La mia regola d’oro: Agent Mode è ottimo per scaffolding (ti fa partire veloce), ma review sempre il codice prima di metterlo in produzione.

Skill custom: quando inizia a diventare interessante

Ho creato una skill per analizzare costi:

skill = {
    "name": "cost_analyzer",
    "description": "Analizza query plans e suggerisce ottimizzazioni costi",
    "capabilities": [
        "analyze_query_plan", 
        "suggest_partitioning",
        "estimate_compute_cost"
    ]
}

Ora l’AI può dirmi “Questa query costa $50 a run, prova a partizionare per data”. Utile.

Delta Lake 4.0 UniForm: ho risolto un problema che mi faceva impazzire

Il dramma dei formati multipli

La mia architettura:

  • Spark scrive su Delta
  • Trino fa query ad-hoc (preferisce Iceberg)
  • Flink legge in streaming (preferisce Hudi)

Prima di UniForm dovevo:

  1. Scrivere su Delta
  2. Copiare su Iceberg (duplicazione storage)
  3. Copiare su Hudi (triplicazione storage)
  4. Gestire consistenza tra le copie

Costo: 3x storage + mal di testa.

La soluzione che ho provato

Ho abilitato UniForm su una tabella di test:

CREATE TABLE events (...)
USING DELTA
TBLPROPERTIES (
    'delta.enableUniform' = 'true',
    'delta.universalFormat.enabledFormats' = 'iceberg,hudi'
);

Risultato:

  • Spark legge come Delta ✅
  • Trino legge come Iceberg ✅
  • Flink legge come Hudi ✅
  • Stessi file Parquet sottostanti ✅
  • Zero duplicazione

Overhead? <5% sui write. Niente rispetto al risparmio sullo storage.

La roadmap che ho seguito (e che ti consiglio)

Ho migrato un progetto reale in 8 settimane. Ecco cosa ho fatto:

Settimane 1-2: Assessment Inventario pipeline, identificato candidati per Lakebase, calcolato baseline costi.

Settimane 3-4: Pilot Lakebase Migrato 2 tabelle non critiche. Testato con Tableau. Risultato: stabile.

Settimane 5-6: UniForm Abilitato su tabelle che servivano a Trino. Testato query cross-engine. Funziona.

Settimane 7-8: AI Agent Iniziato con task semplici. Creato skill custom. Stabilito processo di review.

Cosa mi ha sorpreso (e cosa no)

✅ Cosa funziona davvero:

  • Lakebase scale-to-zero: risparmio concreto
  • Branching istantaneo: cambia il modo di fare testing
  • UniForm: risolve un problema reale
  • AI Agent per scaffolding: velocizza il 70% del lavoro iniziale

❌ Cosa fa ancora schifo:

  • AI Agent in produzione senza review: pericoloso
  • Lakebase per streaming: non progettato per questo
  • Migration tools automatici: ho dovuto fare tutto a mano

💡 Insight personale

La combinazione Lakebase + UniForm + AI Agent non è “rivoluzionaria” nel senso marketing. È pragmatica. Risolve problemi quotidiani che ogni data engineer ha.

Il mio setup ideale ora:

  • Lakebase per analytics e BI
  • Delta Tables per ETL pesanti
  • UniForm per multi-engine access
  • AI Agent per scaffolding e ottimizzazioni semplici
  • Cervello umano per review e architettura complessa

Conclusione: ne vale la pena?

Dopo un mese di test intensivi, la risposta è sì, ma con cautela.

  • Lakebase? Implementa subito se hai workload analytics variabili
  • UniForm? se usi multipli engine
  • AI Agent? Provalo ma non fidarti ciecamente

Il futuro del data engineering non è “AI fa tutto”. È “AI fa il 70% del lavoro noioso, tu fai il 30% che richiede cervello”.

Voi avete provato queste feature? Come vi è andata? Parliamone nei commenti.


Disclaimer: Questo è il racconto della mia esperienza personale. I tuoi risultati possono variare. Fai sempre test approfonditi prima di mettere in produzione.


Risorse che ho usato:

Post correlati: