Ho testato Databricks Lakebase e AI Agent Mode: ecco cosa ho imparato (e quanto ho risparmiato)

Perché ho passato un mese a testare le novità Databricks

Lavoro con Databricks da 4 anni. Ho visto uscire mille feature, la maggior parte delle quali promettevano di “rivoluzionare” il data engineering e poi finivano nel dimenticatoio dopo 6 mesi.

Ma gennaio 2026 è stato diverso. Tre annunci in 3 settimane:

Lakebase GA - Postgres serverless sul lakehouse
AI Agent Mode - L’AI che scrive davvero le pipeline
Delta Lake 4.0 UniForm - Fine delle guerre di formato

Mi sono detto: “Ok, questa volta testo tutto prima di cantare vittoria”. Ho preso un progetto reale (migrazione da Redshift) e ho provato a usarli in produzione. Ecco cosa è successo.

Lakebase: finalmente un data warehouse che non mi spenna

Il problema che avevo

Il mio team usa Redshift per analytics. Costo mensile: $3.200. E metà del tempo quei cluster stanno lì a girare vuoti perché sviluppiamo solo 8 ore al giorno.

Ho provato Lakebase su un progetto pilota. La differenza? Scale-to-zero. Quando nessuno fa query, pago zero. Quando qualcuno fa query, scala automaticamente.

La migrazione che ho fatto

# Script che ho usato io per migrare da Redshift
from databricks import sql
import psycopg2

# Connessione Redshift
redshift = psycopg2.connect(host='...', database='analytics')

# Connessione Lakebase  
lakebase = sql.connect(
    server_hostname='xxx.cloud.databricks.com',
    http_path='/sql/1.0/warehouses/lakebase-id',
    access_token='...'
)

# Migrazione
for table in ['customers', 'orders', 'events']:
    df = pd.read_sql(f"SELECT * FROM {table}", redshift)
    spark_df = spark.createDataFrame(df)
    spark_df.write.format("delta").saveAsTable(table)

Risultato? 20 minuti di lavoro, Tableau ha funzionato subito (cambiata solo la connection string), e le query erano più veloci del 15%.

Il killer feature: branching istantaneo

Stavo facendo testing su dati di produzione. Solito casino: copio i dati, li maschero, li metto in un ambiente separato. Tempo: 2 ore.

Con Lakebase:

CREATE BRANCH testing FROM production;
USE BRANCH testing;
-- Faccio quello che voglio
DROP BRANCH testing;

Tempo: 30 secondi. E zero costi di storage duplicato.

I numeri del risparmio (reali)

Mese	Redshift	Lakebase	Risparmio
Gennaio	$3.200	$1.180	$2.020
Febbraio	$3.350	$1.240	$2.110

$2.000 al mese di risparmio. Su un progetto medio. Se scaliamo a tutta l’azienda, parliamo di $25.000+ all’anno.

Quando NON usare Lakebase

Non è tutto oro. Ho scoperto che:

❌ Non serve per ETL pesanti (TB di dati) - usate Delta Tables
❌ Non fa streaming - Structured Streaming è meglio
❌ Limite 8TB - per dataset più grandi serve federazione

Ma per BI, analytics, query ad-hoc? Perfetto.

AI Agent Mode: l’AI che scrive codice… ma non fidarti ciecamente

Cosa ho provato

Il 6 gennaio ho aperto Databricks e ho visto “Agent Mode”. Ho pensato: “Ok, vediamo se è hype o funziona davvero”.

Test 1: “Crea una pipeline per ingerire dati da S3”

Ho scritto:

“Analizza s3://company-data/sales/ e crea una Delta table con ricavi giornalieri per regione”

L’AI ha:

Letto la struttura S3
Inferito lo schema dai file
Creato la tabella con partitioning
Scritto il job con scheduling
Configurato monitoring

Tempo: 5 minuti. Quello che mi avrebbe preso 2 ore.

Ma attenzione: è ancora beta (e si vede)

Ho provato a fargli ottimizzare una query lenta. Ha suggerito di aggiungere Z-ordering sulla colonna sbagliata. Se non controllavo, avrei peggiorato le performance.

La mia regola d’oro: Agent Mode è ottimo per scaffolding (ti fa partire veloce), ma review sempre il codice prima di metterlo in produzione.

Skill custom: quando inizia a diventare interessante

Ho creato una skill per analizzare costi:

skill = {
    "name": "cost_analyzer",
    "description": "Analizza query plans e suggerisce ottimizzazioni costi",
    "capabilities": [
        "analyze_query_plan", 
        "suggest_partitioning",
        "estimate_compute_cost"
    ]
}

Ora l’AI può dirmi “Questa query costa $50 a run, prova a partizionare per data”. Utile.

Delta Lake 4.0 UniForm: ho risolto un problema che mi faceva impazzire

Il dramma dei formati multipli

La mia architettura:

Spark scrive su Delta
Trino fa query ad-hoc (preferisce Iceberg)
Flink legge in streaming (preferisce Hudi)

Prima di UniForm dovevo:

Scrivere su Delta
Copiare su Iceberg (duplicazione storage)
Copiare su Hudi (triplicazione storage)
Gestire consistenza tra le copie

Costo: 3x storage + mal di testa.

La soluzione che ho provato

Ho abilitato UniForm su una tabella di test:

CREATE TABLE events (...)
USING DELTA
TBLPROPERTIES (
    'delta.enableUniform' = 'true',
    'delta.universalFormat.enabledFormats' = 'iceberg,hudi'
);

Risultato:

Spark legge come Delta ✅
Trino legge come Iceberg ✅
Flink legge come Hudi ✅
Stessi file Parquet sottostanti ✅
Zero duplicazione ✅

Overhead? <5% sui write. Niente rispetto al risparmio sullo storage.

La roadmap che ho seguito (e che ti consiglio)

Ho migrato un progetto reale in 8 settimane. Ecco cosa ho fatto:

Settimane 1-2: Assessment Inventario pipeline, identificato candidati per Lakebase, calcolato baseline costi.

Settimane 3-4: Pilot Lakebase Migrato 2 tabelle non critiche. Testato con Tableau. Risultato: stabile.

Settimane 5-6: UniForm Abilitato su tabelle che servivano a Trino. Testato query cross-engine. Funziona.

Settimane 7-8: AI Agent Iniziato con task semplici. Creato skill custom. Stabilito processo di review.

Cosa mi ha sorpreso (e cosa no)

✅ Cosa funziona davvero:

Lakebase scale-to-zero: risparmio concreto
Branching istantaneo: cambia il modo di fare testing
UniForm: risolve un problema reale
AI Agent per scaffolding: velocizza il 70% del lavoro iniziale

❌ Cosa fa ancora schifo:

AI Agent in produzione senza review: pericoloso
Lakebase per streaming: non progettato per questo
Migration tools automatici: ho dovuto fare tutto a mano

💡 Insight personale

La combinazione Lakebase + UniForm + AI Agent non è “rivoluzionaria” nel senso marketing. È pragmatica. Risolve problemi quotidiani che ogni data engineer ha.

Il mio setup ideale ora:

Lakebase per analytics e BI
Delta Tables per ETL pesanti
UniForm per multi-engine access
AI Agent per scaffolding e ottimizzazioni semplici
Cervello umano per review e architettura complessa

Conclusione: ne vale la pena?

Dopo un mese di test intensivi, la risposta è sì, ma con cautela.

Lakebase? Implementa subito se hai workload analytics variabili
UniForm? Sì se usi multipli engine
AI Agent? Provalo ma non fidarti ciecamente

Il futuro del data engineering non è “AI fa tutto”. È “AI fa il 70% del lavoro noioso, tu fai il 30% che richiede cervello”.

Voi avete provato queste feature? Come vi è andata? Parliamone nei commenti.

Disclaimer: Questo è il racconto della mia esperienza personale. I tuoi risultati possono variare. Fai sempre test approfonditi prima di mettere in produzione.

Risorse che ho usato:

Post correlati:

Perché ho passato un mese a testare le novità Databricks#

Lakebase: finalmente un data warehouse che non mi spenna#

Il problema che avevo#

La migrazione che ho fatto#

Il killer feature: branching istantaneo#

I numeri del risparmio (reali)#

Quando NON usare Lakebase#

AI Agent Mode: l’AI che scrive codice… ma non fidarti ciecamente#

Cosa ho provato#

Ma attenzione: è ancora beta (e si vede)#

Skill custom: quando inizia a diventare interessante#

Delta Lake 4.0 UniForm: ho risolto un problema che mi faceva impazzire#

Il dramma dei formati multipli#

La soluzione che ho provato#

La roadmap che ho seguito (e che ti consiglio)#

Cosa mi ha sorpreso (e cosa no)#

✅ Cosa funziona davvero:#

❌ Cosa fa ancora schifo:#

💡 Insight personale#

Conclusione: ne vale la pena?#