SQL Server 2019: premesse
Il database di punta di Microsoft è uno strumento importante, con versioni locali e in-cloud che offrono potenti strumenti di archiviazione e analisi. Diventa anche un’importante applicazione per i data scientist, fornendo un quadro per la costruzione e il test di modelli di apprendimento automatico. C’è molto in SQL Server, e una nuova versione può mostrare dove Microsoft pensa che le tue esigenze di dati andranno nei prossimi anni.
L’ultimo CTP per SQL Server 2019 , versione 2.1, è ora disponibile per aiutare a valutare e testare la prossima versione al di fuori degli ambienti di produzione. Come il suo predecessore, è disponibile nelle versioni Windows e Linux, anche se ora è stato aggiunto il supporto per contenitori e Kubernetes. L’aggiunta del supporto per i container, utilizzando Docker e la versione Linux di SQL Server, è un’opzione interessante in quanto consente di creare SQL Server in enormi motori analitici basati su Kubernetes che funzionano con i data lake ospitati da Azure utilizzando Apache Spark.
L’attuale programma di installazione dell’anteprima offre l’opzione di un’installazione di base, rapida e veloce o un’installazione personalizzata più dettagliata. La prima opzione richiede meno spazio su disco, poiché sono i file necessari per eseguire l’installazione di base, mentre un’installazione personalizzata riduce l’intero supporto di installazione di SQL Server 2019. Per la maggior parte delle attività di sviluppo di base è sufficiente un’installazione di base, sebbene raccomandiamo un’installazione personalizzata come parte di una valutazione completa. È inoltre possibile scaricare il supporto di installazione se si prevede di installarlo su più di un computer per valutare le funzionalità del cluster di SQL Server.
L’apprendimento automatico è una parte importante di SQL Server 2019 e ora include strumenti integrati per la creazione e il test dei modelli di apprendimento automatico. Puoi installarlo con il supporto per i popolari linguaggi R e Python, in modo che il tuo team di scienza dei dati possa lavorare all’interno del database, preparare e testare i modelli prima di formarli sui tuoi dati. Microsoft sta utilizzando la propria distribuzione R Open e l’ambiente Anaconda Data Science Python, che include ulteriori librerie di analisi numeriche, tra cui il popolare NumPy.
È inoltre possibile installare SQL Server 2019 come ambiente di sviluppo autonomo per l’apprendimento automatico. Le istanze locali di SQL Server sulle workstation degli sviluppatori saranno in grado di utilizzare strumenti familiari R e Python per lavorare direttamente con i set di dati di formazione, senza influenzare i sistemi di produzione o l’utilizzo delle risorse del server.
Dati davvero GRANDI
Lavorare con dati su larga scala è stato a lungo un problema, con pochissimi motori di database progettati per funzionare come parte di un’architettura distribuita. Con SQL Server 2019 è ora possibile creare ciò che Microsoft chiama Big Data Clusters , utilizzando un mix di contenitori SQL Server e Apache Spark su Kubernetes utilizzando le funzionalità PolyBase esistenti di SQL Server . Con cloud pubblici che supportano i Kubernetes nativi, potrai distribuire Big Data Cluster su Azure, su AWS e su GCP, nonché sulla tua infrastruttura. L’integrazione con gli strumenti di Azure Data Studio semplifica la creazione, l’esecuzione e la condivisione di query complesse.
L’attenzione di Microsoft per gli scenari di scienza dei dati si adatta perfettamente alla strategia intelligente di cloud / intelligenza aziendale. I dati sono essenziali per creare strumenti di machine learning e, eseguendo codice R e Python all’interno del database, è possibile inviare query complesse dalla riga di comando di SQL Server, utilizzando strumenti familiari per creare e testare il codice prima di distribuirlo ed eseguirlo. Microsoft sta fornendo codice di esempio tramite GitHub, che mostra come combinare i dati relazionali con i big data. Condivide anche architetture di esempio che mostrano come utilizzare questo come base per la creazione di sistemi di apprendimento automatico oltre a tecnologie open source come Kafka.
Altre nuove funzionalità, come il mascheramento statico dei dati, si concentrano sulla protezione e la disinfezione dei dati in modo che possano essere utilizzati senza influire sulla conformità normativa. L’applicazione del mascheramento statico dei dati alle colonne nell’esportazione di un database consente agli sviluppatori di lavorare con dati reali evitando che perdite di informazioni sensibili. Non c’è modo di recuperare i dati originali, in quanto è un processo a senso unico. Le versioni precedenti di SQL Server hanno introdotto la mascheratura dinamica dei dati, che funziona solo con il database originale. Esportando con il mascheramento statico c’è poco o nessun rischio per gli sviluppatori di smascherare o alterare casualmente i dati in tempo reale, lasciando loro produrre codice che può essere messo in produzione senza alcuna modifica.
A livello di database, quando crei gli indici puoi ora fermarti e iniziare. Se un disco si sta riempiendo, è possibile sospendere un’operazione di indicizzazione, aggiungere altra memoria al volume e quindi riprendere dal punto in cui era stato interrotto. Non è necessario ricominciare da zero, risparmiando tempo e calcoli. C’è anche la possibilità di riavviare dopo gli errori, risparmiando ancora tempo dopo aver corretto l’errore che ha causato l’arresto anomalo di un indice.
Con SQL Server 2019 Microsoft sta dimostrando che anche se i database relazionali sono in circolazione da molto tempo, c’è ancora spazio per miglioramenti e innovazione. Costruendo un motore di database che funziona come ogni SQL Server ha funzionato in passato, e allo stesso tempo supportando il lavoro con l’apprendimento automatico e grandi quantità di dati su larga scala, offre uno strumento pronto per aggiornare ciò che hai e per supportarti come lavori con i tuoi dati in sicurezza, in locale e in cloud pubblici. Tutto ciò che devi fare è scaricarlo e vedere cosa può fare per te.