Reading Time: 9 minutes

Torniamo a parlare di Dremio, e dell’impatto che la proposta di Open No-copy Data architecture sta avendo sullo scenario delle moderne architetture di gestione del dato.

Partiamo da una novità recente: Dremio ha raddoppiato la sua quotazione iniziale, arrivando a 2 Miliardi di valore complessivo. Decisamente notevole, visto che dalla sua fondazione nel 2015 e la vera e propria ”messa in moto” del prodotto avvenuta intorno al 2017, non è passato moltissimo tempo.
Un balzo notevole dunque per dimostrare come la soluzione, che in sostanza ha “reinventato l’interrogazione SQL per i data Lake”, stia consolidando la sua posizione sul mercato con una notevole risonanza.

SANTA CLARA, California, 25 gennaio 2022 — Dremio , il leader dell’innovazione nella trasformazione del data lake, ha annunciato oggi di aver chiuso un round di finanziamento di serie E da 160 milioni di dollari, portando la valutazione dell’azienda a 2 miliardi di dollari. Questa raccolta fondi preventiva è avvenuta solo un anno dopo un round di $ 135 milioni guidato da Sapphire Ventures nel gennaio 2021.
FONTE: Datanami

Per chi si fosse perso un po’ di passaggi, facciamo un passo indietro, e analizziamo un po’ il background.

Conosciamo oramai molto bene le esigenze di un mondo che viaggia spedito verso la digitalizzazione dei servizi, e seppur a velocità un po’ diverse, notiamo che si tratta di un processo che via via si estende a tutti i settori (e a tutti i paesi).

Ciò che ha accomunato in questi anni le aziende è stata la proliferazione dei dati, e la presa di coscienza dell’enorme valore informativo che rappresentano. Sappiamo però bene che esiste una bella differenza tra dato e informazione. Avere a disposizione enormi quantità di dati eterogenei e riuscire a non “disperderli” attraverso strutture dati di vario genere non è sufficiente per sfruttarne appieno il valore. I Dati Grezzi, a seguito del processo di storage, devono infatti essere opportunamente indicizzati, processati, arricchiti per essere realmente informativi. E, soprattutto, devono essere messi correttamente a disposizione degli analisti.

A tutto ciò fa da sfondo la difficoltà nel far combaciare esigenze tecniche e di business, ovvero trovare una “via di mezzo” tra soluzioni performanti e scalabili dal punto di vista del Data Engineer, e soluzioni che semplifichino l’accesso ai dati da parte dei Consumer (analisti, data scientist, ecc..). Tutto questo, naturalmente, cercando di non impattare in modo eccessivo sui costi, che a seconda dello scenario, possono crescere di molti ordini di grandezza.

L’evoluzione delle Architetture

Abbiamo visto negli anni un’evoluzione nelle modalità di gestione del dato: dai primi Data Warehouse siamo passati ai Data Lake, e abbiamo assistito allo sviluppo di svariate tecnologie e approcci di estrazione, manipolazione e interrogazione dei dataset.

I data warehouse rappresentano una soluzione per immagazzinare, gestire ed elaborare in modo sicuro i dati, con prestazioni ottimizzate a seconda dei casi d’uso, come reporting e business intelligence (BI). In passato, le organizzazioni centralizzavano i dati in un data warehouse con l’intenzione di fornire una singola fonte (SSOT) per analisi. I data Warehouse forniscono prestazioni elevate per i dati strutturati con metodi come l’archiviazione e l’ottimizzazione delle query e il caching delle tabelle usate di frequente.

Il Data Warehousing, al netto degli alti costi e della complessità, rappresenta quindi ancora dei notevoli vantaggi. Non sono infatti rari dei casi ibridi, in cui vengono utilizzati entrambi gli approcci. Un Data Lake per la raccolta dei dati e un Data Warehouse per gestire specifici use case. 

Risolvere la complessità attraverso un approccio no-copy

Tra le fasi di storage del dato e la sua elaborazione intercorrono tuttavia processi complessi e costosi. In particolare nei sistemi legacy è necessario copiare i dati raw dalle sorgenti originali a data warehouse proprietari, con tempi e costi di manutenzione decisamente elevati.

Come risolvere la complessità? Due scenari a confronto

Per chiarire meglio, vediamo alcuni passaggi tipici.

  • Copiare i dati in un data warehouse
  • Costruzione di tabelle aggregate o ordinate nel data warehouse per motivi di performance
  • Creazione di copie personalizzate di dati nel data warehouse per diversi utenti o team
  • Creazione di estratti/importazioni BI in strumenti BI
  • Costruzione di cubi
  • Scaricare i dati su una macchina locale per ottenere migliori prestazioni e velocità di accesso con strumenti client e librerie

Le copie scollegate dei dati sono l’ostacolo principale per rendere i dati disponibili ai consumatori, e comportano a costi astronomici. Rallentano il time to value rendendo difficile la sicurezza e la governance a causa di incoerenze e l’incapacità di determinare e controllare facilmente chi ha accesso a un set di dati.

Dremio interviene in questo aspetto con una parola d’ordine: semplificare. E lo fa attraverso l’introduzione del concetto di No-Copy Data Architecture.

A differenza dei sistemi tradizionali, Dremio sfrutta Apache Arrow per creare dataset virtuali, ovvero copie fisiche dei dati originali che vengono salvate in memoria, mantenendo inalterati i sorgenti. Grazie a questa operazione rende quindi possibile l’interrogazione diretta di questi dataset, con linguaggio SQL e una notevole riduzione dei tempi di esecuzione delle query. 

Dremio e Open Source

Dremio è una soluzione Open, che poggia le sue basi su progetti come Arrow e Parquet, sfruttando così il grande contributo della community del gruppo Apache nello sviluppo di soluzioni performanti e affidabili.

Altro grande punto di forza è l’Open Data Architecture. Avendo come base l’interazione con dati a formato libero, Dremio è in grado di funzionare indipendentemente dallo strumento utilizzato come sorgente dati. Si può quindi cambiare la sorgente, ma la fruizione del dato resterà la solita e non vi è la necessità di imparare un altro linguaggio diverso da MySQL.

L’approccio Open Source gioca quindi un ruolo fondamentale per aumentare sempre di più la possibilità di analizzare i dati e renderli accessibili.

Business Intelligence e sicurezza

In tempi recenti sempre più aziende stanno adottando il modello di business intelligence che preveda un approccio self-service ai dati. L’approccio lanciato da Dremio permette agli analisti e ai data scientist di essere indipendenti nell’uso dei dati a disposizione e alle organizzazioni di gestire i big data on demand in modo accurato. Il grande vantaggio offerto dalla piattaforma qui sta dalla possibilità di poter prelevare i dati da qualsiasi fonte e su qualsiasi scala e preservando al contempo governance e sicurezza.
Tanti grandi brand nei più svariati settori hanno scelto Dremio per i vantaggi che offre, da Bentley e Hitachi fino ad arrivare a Deloitte e Decathlon. In questo articolo abbiamo parlato di come è possibile applicare la Business Intelligence con Dremio in ambito finanziario prendendo ad esempio il case di UBS.

#USE CASE

Qualche esempio di applicazione: gli use case Vitesco e NCR corporation

In ambito finanziario è interessante il case di NCR Corporation, fornitore leader di software e servizi per le imprese nei settori finanziario. L’organizzazione aveva l’esigenza di accelerare il tempo di analisi al valore. Questo perché, mappando i dati, i tecnici possono:

  • identificare nuove opportunità per migliorare il servizio clienti
  • identificare i colli di bottiglia nell’elaborazione degli ordini
  • valutare la la capacità dell’azienda di rispettare costantemente gli impegni di consegna.
Da qui è scaturita la scelta di implementare Dremio in un’architettura ibrida che li ha aiutati a passare rapidamente dal data warehouse aziendale a un moderno data lake nel cloud.

NCR ha ottenuto così anche un significativo miglioramento delle prestazioni aumentando l’efficienza e riducendo il “revenue perdite” dovute al tempo sprecato in attesa delle analisi. Allo stesso tempo, con approfondimenti più rapidi, è stata migliorata la capacità di NCR di fornire un servizio eccezionale ai propri clienti e di offrire servizi su misura.

Nel settore dell’Industria 4.0 è importante l’applicazione di Dremio da parte di Vitesco, ex divisione powertrain di Continental e leader mondiale nello sviluppo e nella produzione di tecnologie moderne di propulsione per la mobilità sostenibile.
L’azienda voleva modernizzare i processi di produzione e migliorare la produttività dell’ingegneria. Inoltre ci teneva ad assicurarsi che i dati  fossero trasparenti e disponibili per i loro tecnici.

Dremio ha rappresentato così la soluzione ideale di analisi dati self-service, permettendo al team tecnico di accedere e analizzare i dati in qualsiasi momento utilizzando gli strumenti di loro scelta. 

Avevano bisogno di una soluzione flessibile perché il loro modello di dati risultava dinamico. Venivano  aggiunte continuamente nuove macchine o misurazioni. Serviva anche un punto di accesso comune ai dati nel cloud con diverse visualizzazioni per diversi ruoli utente, senza bisogno di copiare i dati.

Dremio ha così soddisfatto queste richieste:

  • eliminando il bisogno dell’azienda di affidarsi a consulenti esterni accelerato
  • automatizzando rapidamente i processi
  • migliorando la sicurezza e la governance sui dati
  • fornendo un accesso scalabile e centralizzato ai dati nel cloud.

Gli sviluppi recenti all’insegna dell’innovazione

Nel recente periodo il team di Dremio ha sviluppato anche nuovi progetti per migliorare le architetture Data Lake. Uno di questi è Project Nessie, il nuovo meta-store open source basato su formati di tabelle come Apache Iceberg e Delta Lake per svolgere transazioni multi-table e multi-engine. Inoltre, Nessie offre per i datalake una semantica simile a Git, compresi commit, tag e branch.

Uno sguardo al futuro: Cloud Data Lakehouse

Per il futuro il team di Dremio continuerà a promuovere il passaggio da data warehouse proprietari ad architetture open come data lake cloud e lakehouse. C’è anche l’intenzione di semplificare ulteriormente le infrastrutture, così da ottenere il massimo vantaggio dalle architetture open e dal cloud.
Grazie all’innovativo metastore Project Nessie sarà possibile rendere più facile anche Data Engineering  e la gestione dei dati. Potete approfondire questi tre key-trend leggendo questa pubblicazione.

Dremio prosegue così la sua continua crescita sul mercato e dal punto di vista dell’innovazione tecnologica.

Scopri di più su Dremio

Se sei interessato a Dremio e alle sue potenzialità puoi contattare il nostro Team.
Parlaci del tuo progetto, possiamo sviluppare assieme una soluzione modellata sulle tue esigenze!