Articoli del meseArticoli del mese

Articoli del mese


Stampa articolo

Articolo del Mese - Maggio 2019

Dai silos a un ecosistema analitico integrato. Un approccio per avere dati da usare su più sistemi

Mike Ferguson by Mike Ferguson

Come semplificare l’architettura dei dati introducendo agilità, favorendo l’integrazione tra i silos e adottando un approccio comune per la gestione e la governance dei dati

Più o meno nell’arco degli ultimi cinque anni, molte aziende hanno superato il tradizionale data warehouse per esplorare nuovi tipi di carichi di lavoro analitici, come per esempio l’analisi esplorativa sui dati non strutturati, l’elaborazione del linguaggio naturale, l’analisi dei flussi, l’analisi dei grafi e il deep learning. In generale, questi tipi di carichi di lavoro sono stati costruiti su diversi tipi di sistemi analitici ottimizzati per specifici tipi di analisi. Sebbene ciascuna di queste iniziative abbia avuto successo, il problema che si è verificato è che lo sviluppo su ciascun sistema analitico specifico del carico di lavoro ha portato a silos analitici, dove ogni silos utilizza un approccio diverso all’elaborazione dei dati e allo sviluppo analitico. Per esempio, l’elaborazione e lo sviluppo di dati analitici su una piattaforma come Hadoop viene effettuata in modo diverso rispetto all’elaborazione dei dati su una piattaforma di analisi di streaming o su un database grafico NoSQL. Inoltre, tutte le fasi di elaborazione e sviluppo in ciascuno di questi silos sono diverse da ciò che è accaduto nel data warehousing tradizionale. È quasi come se l’architettura dei dati sia influenzata dalla piattaforma analitica in uso. Sono molte le domande che possono essere poste. Per esempio, è possibile adottare un approccio più comune alla produzione di dati da utilizzare in più sistemi analitici specifici? La gestione dei dati può essere semplificata in modo che i dati vengano preparati una volta e riutilizzati ovunque? L’approccio allo sviluppo dell’analisi può essere fatto utilizzando una piattaforma comune estensibile che ospita più librerie e tipi di analisi (per esempio, Scikit Learn, Apache Spark, Tensorflow, H2O...) e allo stesso tempo supportare lo sviluppo di R e Python tramite RStudio e Jupyter rispettivamente? Per rispondere a queste domande, bisogna considerare cosa è possibile fare per iniziare a semplificare l’architettura dei dati introducendo agilità e guidando l’integrazione tra i silos. Sono molte le cose che si possono fare: la prima è adottare un approccio collaborativo comune alla gestione e alla governance dei dati. Questo comporta adottare un approccio in 7 step per contribuire in modo significativo ad accelerare la preparazione dei dati, consentire la governance dei dati e migliorare la produttività attraverso il riutilizzo anziché la reinvenzione.

Step numero 1 - Stabilire in modo incrementale un vocabolario di business comune per tutte le entità di dati logici attendibili (per es. prodotto, cliente, ordini, etc.) e per gli insights che si intende condividere. Lo scopo è quello di garantire che il significato di dati ampiamente condivisi sia documentato.

Step numero 2 - Razionalizzare i singoli strumenti di gestione dei dati mostrati in ciascuno dei silos e utilizzare un comune software di data fabric con un catalogo di dati aziendali di accompagnamento. Tra gli esempi di software di data fabric vi sono: Talend Data Fabric, Google Cask Data Application Platform, IBM Cloud Private for Data e Informatica Intelligent Data Platform. Nella maggior parte dei casi, il catalogo dei dati aziendali è incluso come parte del software del data fabric, sebbene alcuni fornitori possano offrirlo come prodotto acquistabile separatamente.

Step numero 3 - Se si acquista software di data fabric con un catalogo di dati aziendali di accompagnamento, dovrebbe essere possibile connettersi alle fonti dati sia in locale sia nel cloud e creare così un data lake logico. Da lì si può iniziare a creare e mettere in atto un programma per produrre dati attendibili e comunemente compresi che vengono governati.

Step numero 4 - Utilizzare il catalogo di dati aziendali per scoprire, catalogare e mappare automaticamente i dati scoperti nel proprio vocabolario comune contenuto in un glossario aziendale all’interno del catalogo.

Step numero 5 - Organizzarsi per diventare un’azienda data driven. Ciò può essere fatto considerando i dati come una risorsa e consentendo ai produttori di informazioni sia dell’IT sia del Business di lavorare insieme nello stesso team di progetto che prepara e integra i dati utilizzando il software data fabric. Lo scopo di questi progetti è di produrre “prodotti di dati” affidabili, comunemente compresi e riutilizzabili. Per esempio i dati dei clienti degli ordini, dei prodotti, ecc.

Step numero 6 - Creare una supply chain delle informazioni all’interno dell’azienda. Si tratta di una “linea di produzione” in cui i team di produttori di informazioni (Business e IT) prendono i dati grezzi da un data lake logico e creano dati pronti all’uso da riutilizzare in tutta l’azienda.

Step numero 7 - Pubblicare i prodotti di dati già pronti in un marketplace di dati aziendali, ovvero un catalogo di dati contenente dati attendibili, per le informazioni che i consumatori possono trovare e utilizzare.

Una piattaforma analitica comune - La seconda cosa importante che si può fare è stabilire un approccio collaborativo per lo sviluppo di modelli di machine learning utilizzando una piattaforma analitica comune, indipendentemente da dove verranno distribuiti i modelli. Uno dei maggiori problemi nella data science di oggi è il fatto che è emersa una situazione di “selvaggio west” in cui ogni team di data science nell’area del Business adotta un proprio approccio allo sviluppo del modello, scegliendo qualunque strumento senza considerare lo sviluppo del modello e la gestione del modello da una prospettiva aziendale. Inoltre, molte aziende non riescono a implementare alcun modello. Il risultato è una “industria familiare” di molte diverse tecnologie utilizzate per la stessa cosa, in cui le competenze si diffondono in modo troppo impalpabile su tutti questi strumenti: un incubo di manutenzione e di non-riutilizzo. Per far fronte a questo, un’opzione che molte aziende stanno considerando è quella di investire in un ambiente di sviluppo integrato estensibile per gli analytics. Ma cosa si intende esattamente con questo? Serve un software di data science che permetta di portare il proprio codice (R, Python, Scala), che si integri con RStudio e Jupyter, e anche con Github, che permetta di aggiungere librerie analitiche come Tensorflow, Spark MLlib, H2O e così via, e che supporti anche le pipeline per lo sviluppo drag and drop invece del coding. Si tratta di strumenti come Amazon SageMaker, Cloudera Data Science Workbench, IBM Watson Studio, Tibco Statistica, e simili. Inoltre, gli strumenti di automazione del machine learning come DataRobot, H2O Driverless AI, SAS Factory Miner, etc., vengono presi in considerazione per accelerare lo sviluppo di modelli.

Verso un ecosistema analitico integrato - Serve anche la possibilità di implementare modelli ovunque. Quindi, per esempio, nel caso di frodi, potrebbero essere necessari diversi tipi di analisi, tra cui analisi di streaming in tempo reale per bloccare transazioni fraudolente al volo, analisi batch per visualizzare attività fraudolente e analisi dei grafi per identificare gli schemi di frode. Il punto è che dovrebbe essere possibile trovare i dati tramite il catalogo (comprese le risorse di dati attendibili già pronti), sviluppare tutte queste analisi da una piattaforma comune, distribuire tutti i modelli costruiti negli ambienti in cui devono essere eseguiti, gestire le versioni del modello, monitorare l’accuratezza del modello e prevedere il re-training e la re-implementazione, se la precisione scende al di sotto delle soglie definite dall’utente. In particolare, semplificare l’implementazione dei modelli è estremamente necessario in molte aziende, poiché i progetti di analytics sembrano bloccarsi proprio nella fase di deployment. Oltre alla gestione e all’integrazione di più silos analitici, anche molti data warehouse tradizionali devono essere modernizzati come parte del processo di creazione di un ecosistema analitico integrato. L’adozione di tecniche di modellazione agile dei dati agili come Data Vault, l’offload dell’elaborazione ETL nel data lake, la migrazione del data warehouse al cloud, i data mart virtuali e un data warehouse logico fanno tutti parte di un programma di modernizzazione.

Mike Ferguson sarà il chairman della Conferenza di Technology Transfer “Analytics for the Enterprise” il 27-28 giugno 2019 a Roma. Presenterà inoltre i seminari “Machine Learning e Advanced Analytics” il 6-7 maggio 2019, “Enterprise Data Governance & Master Data Management” l’8-9 maggio 2019, “La modernizzazione del Data Warehouse” il 3-4 giugno 2019 e “Progettare, costruire e gestire un Data Lake multiuso” il 5-6 giugno 2019.

Dai silos a un ecosistema analitico integrato. Un approccio per avere dati da usare su più sistemi - Technology Transfer

Dai silos a un ecosistema analitico integrato. Un approccio per avere dati da usare su più sistemi
Mike Ferguson

Come accelerare l’innovazione in azienda. La nuova generazione dell’IT enterprise
Frank Greco

Tassonomie e ricerche. Ecco come ottenere migliori risultati
Heather Hedden

Viaggio verso il data warehouse logico
Il grande dilemma della business intelligence

Rick van der Lans

Enterprise information catalog. I requisiti per fare la scelta giusta
Mike Ferguson

La nuova era dell’analisi predittiva - Le aziende alla prova del Machine Learning
Frank Greco

Uno sguardo Agile - Per capire il passato e progettare il futuro
Arie van Bennekum

Trasformazione Agile
Se il product owner diventa un collo di bottiglia

Sander Hoogendoorn

Una Fiat o una Ferrari?
Qual è la più adatta per il business digitale?

Barry Devlin

Vincere la complessità dei dati. È l’ora dello smart data management
Mike Ferguson

Big Data e Analytics - Se il machine learning accelera anche la data science
Mike Ferguson

I dati al centro del business
Christopher Bradley

I Big Data forniscono il contesto e la ricchezza predittiva attorno alle transazioni di business Avere dati coerenti e di qualità resta fondamentale per il processo decisionale
Barry Devlin

Cosa c’è dietro l’angolo? Cinque mosse per diventare un digital leader
Jeroen Derynck

Managing information technology Gestire l’IT come un business nel business
Mitchell Weisberg

Data integration self-service Miglioramento della produttività o caos totale?
Mike Ferguson

Project manager vecchi miti e nuove realtà
Aaron Shenhar

La catena alimentare dei requisiti
Suzanne Robertson

Come diventare un’azienda data-centric
Lindy Ryan

Enterprise analytical ecosystem - Come comprendere il comportamento online dei clienti e capitalizzare il valore dei dati nell’era Big Data
Mike Ferguson

Agilità? Basta Volere
Suzanne Robertson

Ma la vostra architettura è efficace?
Mike Rosen

Se il NoSQL diventa SQL
Rick van der Lans

La data quality e l’impatto sul business
Danette McGilvray

Business analysis e regole di business By Ronald G. Ross con Gladys S.W. Lam
Ronald Ross

Usare Scrum su larga scala: cosa cambia?
Craig Larman

Le architetture per ridurre il debito tecnico
Mike Rosen

Conversando con un marziano
Suzanne Robertson

Cosa c’è di nuovo nel project management?
Aaron Shenhar

Reinventare la Business Intelligence
Barry Devlin

Il nuovo volto della business intelligence
Shaku Atre

Alla ricerca del valore tra i pomodori nell'orto
John Favaro

I big data cambiano il mercato dei Database Server
Rick van der Lans

Un “superstorm” di informazioni
Barry Devlin

I dieci step per la qualità dei dati
Danette McGilvray

Perché è meglio evitare il private cloud?
Jason Bloomberg

Leonardo da Vinci aveva ragione!
Chris Date

Mobile user experience: Come adottare una strategia sostenibile
James Hobart

Cosa significa occuparsi di architettura?
Mike Rosen

Virtualizzazione dei dati e sistemi di Business Intelligence Agili
Rick van der Lans

Modelli e linguaggi naturali, quale il modo migliore per definire i requisiti?
James Robertson

Extreme Scoping: un approccio Agile all'Edw e alla BI
Larissa Moss

BI², la Business Intelligence al quadrato
Barry Devlin

I test di regressione in ambienti legacy
Randy Rice

Le conseguenze della consumerizzazione e del Cloud
Chris Potts

Come vanno gli affari? Chiedetelo al vostro cruscotto
Shaku Atre

Organizzare team di progetto efficienti in ambienti DW/BI
Larissa Moss

Big Data, come e perché
Colin White

Business Capabilities e l'allineamento del business all'IT
Mike Rosen

Il valore della tassonomia nella ricerca delle informazioni
Zach Wahl

BI, ma il Data Warehouse è ancora necessario?
Colin White

Reinventare la Business Intelligence
Barry Devlin

Il cruscotto delle prestazioni: il nuovo volto della Business Intelligence
Shaku Atre

Modelli e processi di User acceptance testing
Randy Rice

I limiti nel gestire l'IT come un Business
Chris Potts

Le componenti fondamentali del Cloud
George Reese

Metadati e DW 2.0
Derek Strauss

BI Open Source: basso costo e alto valore?
Jos van Dongen

Semplicità e requisiti
Suzanne Robertson

Business intelligence e analisi testuale
Bill Inmon

Extreme Scoping™: approcci agili al DW e alla BI
Larissa Moss

Dalla BI a un'architettura IT di livello Enterprise
Barry Devlin

Ambiente efficiente di ricerca di informazioni
James Hobart

Il Business deve trainare la Strategia IT
Chris Potts

Web database: la questione MapReduce (seconda parte)
Colin White

Web database: la questione MapReduce
Colin White

Misura delle prestazioni. I sette comandamenti
Harry Chapman

Le dieci cose che un architetto deve fare per creare valore
Mike Rosen

Sviluppare applicazioni a prova di sicurezza
Ken van Wyk

The ECM Landscape in 2008
Alan Pelz-Sharpe

Ma chi sono gli operatori dell’informazione?
Colin White

Qualità dell’informazione e trasformazione del management
Larry English

Classificazione sistematica delle informazioni
Zach Wahl

L’uso intensivo del Web nelle applicazioni di Bi
Colin White

Enterprise Search
Theresa Regli

La forza dell'astrazione
Steve Hoberman

La strada verso una BI pervasiva
Cindi Howson

Soa, una strategia di test
Randy Rice

Verso una BI più semplice e a minor costo
Colin White

I contenuti “Killer” del Web
Gerry McGovern

Sviluppo iterativo del software per i Dw
Larissa Moss

Qualità delle Informazioni e Datawarehousing
Larry English

Lo scenario Ecm 2008
Alan Pelz-Sharpe

La nascita del Web 3.0
John Kneiling

Documentazione: il dossier del crimine
Suzanne Robertson

L’impatto del Web 2.0 sui portali delle imprese
Colin White

Le tecniche vincenti di IT Management
Ken Rau

Web 2.0
Ed Yourdon

Web di successo se si conosce il cliente
Gerry McGovern

Un approccio alla BI incentrato sui processi
Colin White

Integrare Master Data Management e BI (Parte Seconda)
Mike Ferguson

Integrare Master Data Management e BI (Parte Prima)
Mike Ferguson

Il Project Manager è una Tata
Suzanne Robertson

Web di successo se si conosce il cliente
Gerry McGovern

L'informazione personalizzata
Colin White

La Tassonomia dell'Impresa
Zach Wahl

Managed Meta Data Environment (II parte)
David Marco

Managed Meta Data Environment
David Marco

Migliorare le applicazioni dell'impresa con Web 2.0
James Hobart

La Balanced Scorecard migliora la Performance dell'IT
Harry Chapman

La fusione dei processi dell'impresa grazie a Soa (II parte)
Max Dolgicer

La fusione dei processi dell'impresa grazie a SOA (I parte)
Max Dolgicer

Volere è Potere, in Ogni Senso
Suzanne Robertson

Dimostrate con i numeri il valore dei contenuti del web
Gerry McGovern

Il Back-end della pianificazione strategica dell'It
Ken Rau

L'audit delle prescrizioni di progetto (II parte)
Suzanne Robertson

L'audit delle prescrizioni di progetto (I parte)
Suzanne Robertson

Il Processo di gestione delle informazioni
Ted Lewis

I requisiti come strumento di gestione dei progetti
Suzanne Robertson

Il futuro è nel contenuto killer del web
Gerry McGovern

Alla ricerca del valore tra i pomodori nell'orto
John Favaro

Rilevare i costi sulla base delle attività
Ken Rau

Un percorso verso l'impresa intelligente (II parte)
Mike Ferguson

Un percorso verso l'impresa intelligente (I parte)
Mike Ferguson

Il Data Store Operativo: un lavoro di martello
Claudia Imhoff

Il data warehouse orientato all'impresa
Michael Schmitz

Dieci punti chiave per realizzare balanced scorecard di successo
Harry Chapman

Content management: i contenuti al primo posto
Gerry McGovern

Applicazioni Web ad alta disponibilità
John Kneiling

Il 2004, sarà l'anno in cui abbandoneremo html?
James Hobart

La tecnologia EII ripropone il data warehousing virtuale?
Colin White

Misurare per Gestire
Ken Rau

Volere è Potere, in Ogni Senso
Suzanne Robertson

Realizzare il CPM e l'integrazione della BI
Mike Ferguson

Tutti i punti della FPA
Koni Thompson

Requiem per il Portale?
Colin White

Business Intelligence: dalla teoria alla realtà (II parte)
Shaku Atre

Business Intelligence: dalla teoria alla realtà (I parte)
Shaku Atre

I portali Corporate e di E-business: la nuova generazione del posto di lavoro
Mike Ferguson

I 10 errori da evitare nella realizzazione di un Meta Data Repository (II Parte)
David Marco

I 10 errori da evitare nella realizzazione di un Meta Data Repository (I parte)
David Marco

Usare i modelli per acquisire l'esperienza di progettazione
James Hobart

Realizzare l'Impresa Intelligente
Colin White

.NET or J2EE - Choosing the Right Web Services Framework
John Kneiling

Progettare Applicazioni Mobili di Successo
James Hobart

La Sociologia del Progetto: Identificare e Coinvolgere tutti i Partecipanti
Suzanne Robertson

Integrare la Business Intelligence nell'Impresa (II parte)
Mike Ferguson

Integrare la Business Intelligence nell'Impresa (I parte)
Mike Ferguson

L'Evoluzione del Portale di e-Business (II parte)
Colin White

L'Evoluzione del Portale di e-Business (I parte)
Colin White

Il Consulente WebEAI: Servizi Web, XML e l'Impresa
John Kneiling

Data Mining: Come Gestire le Relazioni con i Clienti Secondo i Principi del CRM
Weaver James

Articoli del mese - Technology Transfer