Come portare smart data e apprendimento automatico in azienda?

La digital transformation inizia ponendosi le domande giuste. Leggi le risposte ai principali quesiti che abbiamo ricevuto dai manager che stanno trasformando le loro aziende grazie alla data science e al machine learning.

Le domande frequenti sui progetti di machine learning e data science.

Certo.

Prendi ispirazione da casi di applicazione concreta, in settori differenti per capire cosa fare, in concreto.
Seleziona i processi che generano un flusso di dati e che possono essere automatizzati con l’intelligenza artificiale e misura l’impatto che l’apprendimento automatico avrà sul business per capire se otterrai del risparmio di tempo, analisi più accurate, performance migliori o una combinazione di questi tre fattori.

Prova a immaginare se sarai tra le aziende che nei prossimi 18 o 24 mesi adotteranno il machine learning per migliorare il proprio business. In un articolo sull’impatto che avrà l’intelligenza artificiale a livello globale, citiamo una ricerca condotta da IBM, in cui si dice che nove aziende su 10 entreranno nel giro dell’intelligenza artificiale.

Se pensi che la tua azienda debba investire nella trasformazione digitale e che data science e machine learning rappresentino delle opportunità e vuoi capire come coglierle, prova ad approfondire l’argomento: scopri quali sono i settori in cui le aziende useranno maggiormente il machine learning oppure i numeri e i trend mondiali.

Puoi anche contattarci per una breve telefonata. Senza alcun impegno saremmo lieti di esplorare assieme la prima opportunità concreta per rompere il ghiaccio e mettere un piede nel futuro.
Dai un’occhiata all’agenda, trova uno uno spazio libero e prenota una call

Cosa aspetti?

Le fasi di un progetto di apprendimento automatico sono 3:

  1. la raccolta dei dati
  2. l’addestramento del modello
  3. la messa in produzione
 

La raccolta dei dati (Collect data)

Il primo passo è definire i dati di input e di output con i quali alimentare l’apprendimento dell’algoritmo. Bisogna poi valutare il modello di apprendimento automatico adeguato: supervisionato, semi-supervisionato, senza supervisione, che variano per il grado maggiore o minore di coinvolgimento di umani nella fase di qualificazione dei dati.

L’addestramento del modello (Train model)

L’algoritmo è prima addestrato e poi testato su due differenti set di dati, chiamati di training e di test. L’addestramento si ripete fino a quando il livello di accuratezza dell’algoritmo e i risultati che produce sono pienamente soddisfacenti. Nella fase di test il modello è provato su un set di dati diverso da quello sul quale è stato addestrato, per valutarne l’efficacia.

Il modello va in produzione (Deploy model)

L’algoritmo viene messo in produzione (productization in inglese) e inizia a svolgere il compito assengatogli: predire la parola che stiamo per scrivere, segnalare in anticipo il guasto di un macchinario, aiutare l’ecografo nell’indagine diagnostica, suggerire un oggetto da comprare sulla base degli ultmi acquisti. Una volta messo in produzione l’algoritmo va curato e aggiornato affinché le sue performance rimangano sempre alte.

No. È vero che per addestrare un algoritmo possono servire enormi quantità di dati, ma anche con pochi dati si possono fare progetti di successo.

Molto dipende dal tipo di operazione che si vuole affidare all’algoritmo. È importante che siano disponibili i dati necessari per addestrare l’algoritmo di apprendimento automatico, se così non fosse bisogna lavorare per capire di quali dati abbiamo bisogno e quali sono le attività da pianificare per produrli.

Ci sono enormi librerie pubbliche con immagini, video, suoni e altri tipi di dati da sfruttare nella fase di training, integrando, in questo modo, la propria base dati. 


Un po’ come ha fatto Airbnb! Ha pensato che un’algoritmo potesse individuare i servizi offerti da un padrone di casa, a partire dalle foto pubblicate sull’annuncio. Per fare questo ha usato alcuni algoritmi di riconoscimento delle immagini e degli oggetti e li ha addestrati su un dataset sia esterni che proprietari.

I dati sono il combustibile del machine learning, devono essere disponibili, organizzati, affidabili. Non sempre si parte da uno scenario ideale, vediamo 4 sistuazioni in cui è comunque possibile iniziare un progetto di machine learning.

 

Situazione 1: dati disponibili, organizzati, affidabili
I modelli predittivi sono molto usati nel commercio al dettaglio (retail), in particolare come supporto ai team attuariali che hanno necessità di predire l’andamento delle vendite e il traffico dei clienti sul singolo punto vendita.

Quando il database a disposizione è vasto, organizzato e i dati sono già ampiamente impiegati all’interno dell’azienda da un team dedicato, il lavoro del data scientist è di capire quali sono i dati essenziali alla soluzione del problema e come accedervi. Il cliente potrebbe estrarre i dati e inviarli al team oppure dare accesso diretto al database. Quest’ultima condizione rende il team di machine learning completamente autonomo per lavorare al POC (la prova di fattibilità del modello).

La situazione 1 è ideale, il caso più semplice. Il team deve capire qual è il modo più semplice per ottenere i dati, poi è libero di lavorare al meglio.

 

Situazione 2: I dati sono online
Un ente culturale europeo aveva bisogno un modello di intelligenza artificiale basato sul linguaggio naturale capace di generare testi in tedesco, con stili di scrittura differenti. In quel caso i dati necessari sono un vasto corpus di testi disponibili online, utili per la fase di training, e cioè per addestrare l’algoritmo. In casi come questo non è necessario etichettare a mano i dati (labelling), ma creare un web scraper per estrarre, scaricare e formattare i dati, con lo scopo di addestrare il sistema. Anche in questo scenario ci si muove con facilità.
Il team ha:

  • identificato i dati disponibili, nel nostro caso sul web,
  • costruito alcuni strumenti abbastanza semplici per trasformare i dati nel modulo necessario per addestrare il sistema.

 

Situazione 3:  È necessario etichettare il dato

Una startup nel settore digital health, aveva bisogno di un modello automatico per estrarre informazioni dai video delle ecografie, grazie al riconoscimento delle immagini. Grazia ad accordi specifici con ospedali e dottori è stato possibile reperire i i video delle ecografie, evitando che il team si occupasse delle registrazioni. Successivamente un team di esperti ecografisti ha aggiunto alle registrazioni le annotazioni necessarie per l’addestramente. È stato creato uno strumento online che il team di ecografisti ha usato per annotare i dati. Il tool online mostra un’immagine alla volta e permette agli esperti di usare il mouse per disegnare le annotazioni.

In questo caso è stato abbastanza semplice reperire i dati “grezzi” ma “senza etichetta”. E quindi stato necessario creare uno strumento adeguato e coinviolgere gli esperti per l’etichettatura manuale dei dati, grazie alla quale ottenere gli output (o ground truth), ovvero il set di training da dare in pasto all’algoritmo di machine learning perché completasse il suo apprendimento.

 

Situazione 4: I dati non ci sono

Un progetto commissionato da un’azienda di distribuzione dell’acqua è partito senza un solo dato a disposizione: la base dati è stata costruita da zero a partire dalla realizzazione di un sensore intelligente da attaccare ai tubi dell’acqua. Il sensore avrebbe registrato le vibrazioni del tubo dell’acqua e la base dati sarebbe stata costituita dalle vibrazioni ovvero il flusso di acqua in millimetri.

Nell’esempio tipico di “assenza del dato” si costruiscono quelli grezzi e poi li si etichetta.

Naturalmente, quando lavoriamo in contesti meno “fisici”, come app e siti web, è molto più semplice costruire i tool per ottenere i dati. Potrebbe essere sufficiente aggiungere uno JavaScript oppure del codice aggiuntivo per avere dati relativi all’uso.

In questo scenario dobbiamo provvedere all’etichettatura dei dati per ottenere la base di dati o “ground truth” che pensiamo il nostro modello di intelligenza artificiale debba produrre.

Quale sia il modo migliore per capire come acqusire ed etichettare lo si capisce caso per caso. L’obiettivo è trovare la soluzione più vantaggiosa, automatizzata e semplice, perché l’etichettatura manuale è costosa, anche se sono disponibili tool online per ridurre i costi del labelling.

Spesso il lavoro di preparazione dei dati è importante almeno quanto quello della creazione del modello (POC). Raccogliere e verificare la qualità del dato è uno sporco lavoro, ma qualcuno lo deve pur fare!

 

 

Hai altre domande?

Organizziamo una call

gradient_color_kristal-ball_logo_v1 1

Una checklist pratica per capire se il tuo business è pronto a cogliere le opportunità offerte da data science e machine learning.