Perché ho passato un mese a testare le novità Databricks
Lavoro con Databricks da 4 anni. Ho visto uscire mille feature, la maggior parte delle quali promettevano di “rivoluzionare” il data engineering e poi finivano nel dimenticatoio dopo 6 mesi.
Ma gennaio 2026 è stato diverso. Tre annunci in 3 settimane:
- Lakebase GA - Postgres serverless sul lakehouse
- AI Agent Mode - L’AI che scrive davvero le pipeline
- Delta Lake 4.0 UniForm - Fine delle guerre di formato
Mi sono detto: “Ok, questa volta testo tutto prima di cantare vittoria”. Ho preso un progetto reale (migrazione da Redshift) e ho provato a usarli in produzione. Ecco cosa è successo.
Lakebase: finalmente un data warehouse che non mi spenna
Il problema che avevo
Il mio team usa Redshift per analytics. Costo mensile: $3.200. E metà del tempo quei cluster stanno lì a girare vuoti perché sviluppiamo solo 8 ore al giorno.
Ho provato Lakebase su un progetto pilota. La differenza? Scale-to-zero. Quando nessuno fa query, pago zero. Quando qualcuno fa query, scala automaticamente.
La migrazione che ho fatto
# Script che ho usato io per migrare da Redshift
from databricks import sql
import psycopg2
# Connessione Redshift
redshift = psycopg2.connect(host='...', database='analytics')
# Connessione Lakebase
lakebase = sql.connect(
server_hostname='xxx.cloud.databricks.com',
http_path='/sql/1.0/warehouses/lakebase-id',
access_token='...'
)
# Migrazione
for table in ['customers', 'orders', 'events']:
df = pd.read_sql(f"SELECT * FROM {table}", redshift)
spark_df = spark.createDataFrame(df)
spark_df.write.format("delta").saveAsTable(table)
Risultato? 20 minuti di lavoro, Tableau ha funzionato subito (cambiata solo la connection string), e le query erano più veloci del 15%.
Il killer feature: branching istantaneo
Stavo facendo testing su dati di produzione. Solito casino: copio i dati, li maschero, li metto in un ambiente separato. Tempo: 2 ore.
Con Lakebase:
CREATE BRANCH testing FROM production;
USE BRANCH testing;
-- Faccio quello che voglio
DROP BRANCH testing;
Tempo: 30 secondi. E zero costi di storage duplicato.
I numeri del risparmio (reali)
| Mese | Redshift | Lakebase | Risparmio |
|---|---|---|---|
| Gennaio | $3.200 | $1.180 | $2.020 |
| Febbraio | $3.350 | $1.240 | $2.110 |
$2.000 al mese di risparmio. Su un progetto medio. Se scaliamo a tutta l’azienda, parliamo di $25.000+ all’anno.
Quando NON usare Lakebase
Non è tutto oro. Ho scoperto che:
- ❌ Non serve per ETL pesanti (TB di dati) - usate Delta Tables
- ❌ Non fa streaming - Structured Streaming è meglio
- ❌ Limite 8TB - per dataset più grandi serve federazione
Ma per BI, analytics, query ad-hoc? Perfetto.
AI Agent Mode: l’AI che scrive codice… ma non fidarti ciecamente
Cosa ho provato
Il 6 gennaio ho aperto Databricks e ho visto “Agent Mode”. Ho pensato: “Ok, vediamo se è hype o funziona davvero”.
Test 1: “Crea una pipeline per ingerire dati da S3”
Ho scritto:
“Analizza s3://company-data/sales/ e crea una Delta table con ricavi giornalieri per regione”
L’AI ha:
- Letto la struttura S3
- Inferito lo schema dai file
- Creato la tabella con partitioning
- Scritto il job con scheduling
- Configurato monitoring
Tempo: 5 minuti. Quello che mi avrebbe preso 2 ore.
Ma attenzione: è ancora beta (e si vede)
Ho provato a fargli ottimizzare una query lenta. Ha suggerito di aggiungere Z-ordering sulla colonna sbagliata. Se non controllavo, avrei peggiorato le performance.
La mia regola d’oro: Agent Mode è ottimo per scaffolding (ti fa partire veloce), ma review sempre il codice prima di metterlo in produzione.
Skill custom: quando inizia a diventare interessante
Ho creato una skill per analizzare costi:
skill = {
"name": "cost_analyzer",
"description": "Analizza query plans e suggerisce ottimizzazioni costi",
"capabilities": [
"analyze_query_plan",
"suggest_partitioning",
"estimate_compute_cost"
]
}
Ora l’AI può dirmi “Questa query costa $50 a run, prova a partizionare per data”. Utile.
Delta Lake 4.0 UniForm: ho risolto un problema che mi faceva impazzire
Il dramma dei formati multipli
La mia architettura:
- Spark scrive su Delta
- Trino fa query ad-hoc (preferisce Iceberg)
- Flink legge in streaming (preferisce Hudi)
Prima di UniForm dovevo:
- Scrivere su Delta
- Copiare su Iceberg (duplicazione storage)
- Copiare su Hudi (triplicazione storage)
- Gestire consistenza tra le copie
Costo: 3x storage + mal di testa.
La soluzione che ho provato
Ho abilitato UniForm su una tabella di test:
CREATE TABLE events (...)
USING DELTA
TBLPROPERTIES (
'delta.enableUniform' = 'true',
'delta.universalFormat.enabledFormats' = 'iceberg,hudi'
);
Risultato:
- Spark legge come Delta ✅
- Trino legge come Iceberg ✅
- Flink legge come Hudi ✅
- Stessi file Parquet sottostanti ✅
- Zero duplicazione ✅
Overhead? <5% sui write. Niente rispetto al risparmio sullo storage.
La roadmap che ho seguito (e che ti consiglio)
Ho migrato un progetto reale in 8 settimane. Ecco cosa ho fatto:
Settimane 1-2: Assessment Inventario pipeline, identificato candidati per Lakebase, calcolato baseline costi.
Settimane 3-4: Pilot Lakebase Migrato 2 tabelle non critiche. Testato con Tableau. Risultato: stabile.
Settimane 5-6: UniForm Abilitato su tabelle che servivano a Trino. Testato query cross-engine. Funziona.
Settimane 7-8: AI Agent Iniziato con task semplici. Creato skill custom. Stabilito processo di review.
Cosa mi ha sorpreso (e cosa no)
✅ Cosa funziona davvero:
- Lakebase scale-to-zero: risparmio concreto
- Branching istantaneo: cambia il modo di fare testing
- UniForm: risolve un problema reale
- AI Agent per scaffolding: velocizza il 70% del lavoro iniziale
❌ Cosa fa ancora schifo:
- AI Agent in produzione senza review: pericoloso
- Lakebase per streaming: non progettato per questo
- Migration tools automatici: ho dovuto fare tutto a mano
💡 Insight personale
La combinazione Lakebase + UniForm + AI Agent non è “rivoluzionaria” nel senso marketing. È pragmatica. Risolve problemi quotidiani che ogni data engineer ha.
Il mio setup ideale ora:
- Lakebase per analytics e BI
- Delta Tables per ETL pesanti
- UniForm per multi-engine access
- AI Agent per scaffolding e ottimizzazioni semplici
- Cervello umano per review e architettura complessa
Conclusione: ne vale la pena?
Dopo un mese di test intensivi, la risposta è sì, ma con cautela.
- Lakebase? Implementa subito se hai workload analytics variabili
- UniForm? Sì se usi multipli engine
- AI Agent? Provalo ma non fidarti ciecamente
Il futuro del data engineering non è “AI fa tutto”. È “AI fa il 70% del lavoro noioso, tu fai il 30% che richiede cervello”.
Voi avete provato queste feature? Come vi è andata? Parliamone nei commenti.
Disclaimer: Questo è il racconto della mia esperienza personale. I tuoi risultati possono variare. Fai sempre test approfonditi prima di mettere in produzione.
Risorse che ho usato:
Post correlati: