Apoena

Engenharia de Dados no Databricks I

Curso Introdutório ao uso do Databricks para Engenharia de Dados

Iury Rosal

Engenheiro de Dados

10 horas 5 capítulos Iniciante

Adquirir acesso

Descrição do Curso

Conteúdo do Curso

Sobre esta Disciplina Grade Curricular e Objetivos

Link para o Repositório Acesse todos os códigos e repositórios

O que é Databricks e Lakehouse? Plataforma Lakehouse Multicloud e Arquitetura

Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics Paper escrito pelos criadores do Databricks sobre Lakehouse

Criando Conta Gratuita (Community Edition) Iniciando no Databricks Community Edition [Deprecated]

Navegando no Workspace (Community Edition) Compreendendo a estrutura do workspace [Deprecated]

Free Edition Novidade do Databricks para substituir a Community

Criando o Cluster (Community Edition) Seu primeiro cluster no Databricks

Entendendo o Layout Dos Notebooks Fundamentos dos Notebooks no Databricks

Comandos Mágicos Magic Commands (%) e DButils

Introdução ao Delta Lake Compreendendo principais funcionalidades do Delta Lake

Compreendendo o Funcionamento do Delta Lake Explorando de forma lúdica

Explorando o Funcionamento do Delta Lake Laboratório

Time Travel Viaje no tempo com Delta lake

Aplicando Lógica de Time Travel Laboratório

Otimização em Delta Tables Aplicando OPTIMIZE e Indexação Z-ORDER

Uso do comando VACUUM Fazendo a limpa!

Aplicando Otimizações Laboratório

Data Tables e Databases (Schemas) Gerenciados e Externos

Lidando com Tabelas Gerenciadas e Externas Laboratórios

Arquitetura Multi-hop e Medalhão Bronze, Silver e Gold

[SLIDES] DATABRICKS LAKEHOUSE PLATFORM - Introdução ao Delta Lake Baixe o material utilizado em aula

Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores Paper escrito pelos criadores do Delta Lake e Databricks

O que é ELT? Comparando com ETL e suas vantagens

Consultando Dados a partir de arquivos Laboratório

Criando Tabelas a partir de arquivos Laboratório

Criando Tabelas a partir de consultas Laboratório

Criando Tabelas já existentes Laboratório

Escrevendo em Tabelas Laboratório

Views Laboratório

UPSERT com operação MERGE Laboratorio

Copiando Tabelas [🚧 EM PROCESSAMENTO] 🚧 EM PROCESSAMENTO

COUNT, COUNT_IF e COUNT + WHERE Entendo os aspectos de contagem

Manipulando colunas de texto [🚧 EM PROCESSAMENTO] [🚧 EM PROCESSAMENTO]

Manipulando colunas de tempo Timestamp e Datetime

Operações de Junção: JOIN Juntando Delta Tables no Databricks

Operações de Conjuntos UNION, INTERSECT, EXCEPT, MINUS

Manipulando colunas JSON Acessando campos e convertendo tipos

Manipulando colunas ARRAY Trabalhando com Tipagem e Funções de ARRAY

Operação PIVOT Pivotando tabela para mudar perspectiva

Higher-order functions: Funções de Alto Nível TRANSFORM, FILTER, EXISTS, AGGREGATE, REDUCE

Controle de Fluxo: CASE/WHEN Aplicando condições para controlar o fluxo

SQL UDFs Reutilizando código SQL com funções

Ingestão Incremental de Dados com COPY INTO Copiando dados de arquivos

Aplicando COPY INTO Processamento Idempotente de Arquivos Brutos para Delta Table

Spark Structured Streaming Principais Funcionalidades

Aplicando processamento em streaming [🚧 EM PROCESSAMENTO] [🚧 EM PROCESSAMENTO]

Ingestão Incremental de Dados com AutoLoader [🚧 EM PROCESSAMENTO] [🚧 EM PROCESSAMENTO]

Usando AutoLoader para Ingestão [🚧 EM PROCESSAMENTO] [🚧 EM PROCESSAMENTO]

Introdução ao Databricks Workflows Entendendo definições em torno de orquestração

Databricks Jobs Compreendendo Jobs

Explorando a Interface do Databricks Workflows (Parte 1) Criando um Job e Tasks

Explorando a Interface do Databricks Workflows (Parte 2) Explorando as opções de Job e Execução

Projeto - Pipeline de Evolução de Dados (Parte 1) Fluxo da bruta da bronze

Projeto - Pipeline de Evolução de Dados (Parte 2) Fluxo da bronze para a gold

Projeto - Pipeline de Evolução de Dados (Parte 3) Construindo fluxo de trabalho no Workloads e Execução

Projeto - Pipeline de Evolução de Dados (Parte 4) Reparação de Execução para dados de 2010

[🚧 EM PROCESSAMENTO] Configurando gatilhos Agendamento e por Arquivos

[🚧 EM PROCESSAMENTO] Fluxos de Controle Execução de Job, Condicionais e Para Cada

[🚧 EM PROCESSAMENTO] Pipelines de ETL e de Ingestão Explorando outras opções do Workflows além do Jobs

O que Você Vai Aprender

Conceitos de Delta Lake e sua aplicação no Databricks
Estrutura e vantagens da arquitetura Lakehouse
Construção de ETL com SQL Spark e Python no Databricks
Princípios de Governança de Dados no ambiente Databricks
Criação de Pipelines de Dados produtivos e escaláveis