
Engenharia de Dados no Databricks I
Curso Introdutório ao uso do Databricks para Engenharia de Dados

Iury Rosal
Engenheiro de Dados
10 horas
5 capítulos
Iniciante
Adquirir acesso
Descrição do Curso
Conteúdo do Curso
1
Sobre esta Disciplina
Grade Curricular e Objetivos
2
Link para o Repositório
Acesse todos os códigos e repositórios
3
O que é Databricks e Lakehouse?
Plataforma Lakehouse Multicloud e Arquitetura
4
Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
Paper escrito pelos criadores do Databricks sobre Lakehouse
5
Criando Conta Gratuita (Community Edition)
Iniciando no Databricks Community Edition [Deprecated]
6
Navegando no Workspace (Community Edition)
Compreendendo a estrutura do workspace [Deprecated]
7
Free Edition
Novidade do Databricks para substituir a Community
8
Criando o Cluster (Community Edition)
Seu primeiro cluster no Databricks
9
Entendendo o Layout Dos Notebooks
Fundamentos dos Notebooks no Databricks
10
Comandos Mágicos
Magic Commands (%) e DButils
1
Objetos de Dados do Databricks
Catalogos, Schemas (Databases) e Tabelas
2
Revisão de SQL no Databricks
Consultando Dados no Databricks
3
Explorando o Output de Data Tables
Por meio de arquivos
4
Utilizando datasets do Databricks
Explorando mais dados públicos
1
Introdução ao Delta Lake
Compreendendo principais funcionalidades do Delta Lake
2
Compreendendo o Funcionamento do Delta Lake
Explorando de forma lúdica
3
Explorando o Funcionamento do Delta Lake
Laboratório
4
Time Travel
Viaje no tempo com Delta lake
5
Aplicando Lógica de Time Travel
Laboratório
6
Otimização em Delta Tables
Aplicando OPTIMIZE e Indexação Z-ORDER
7
Uso do comando VACUUM
Fazendo a limpa!
8
Aplicando Otimizações
Laboratório
9
Data Tables e Databases (Schemas)
Gerenciados e Externos
10
Lidando com Tabelas Gerenciadas e Externas
Laboratórios
11
Arquitetura Multi-hop e Medalhão
Bronze, Silver e Gold
12
[SLIDES] DATABRICKS LAKEHOUSE PLATFORM - Introdução ao Delta Lake
Baixe o material utilizado em aula
13
Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores
Paper escrito pelos criadores do Delta Lake e Databricks
1
O que é ELT?
Comparando com ETL e suas vantagens
2
Consultando Dados a partir de arquivos
Laboratório
3
Criando Tabelas a partir de arquivos
Laboratório
4
Criando Tabelas a partir de consultas
Laboratório
5
Criando Tabelas já existentes
Laboratório
6
Escrevendo em Tabelas
Laboratório
7
Views
Laboratório
8
UPSERT com operação MERGE
Laboratorio
9
Copiando Tabelas [🚧 EM PROCESSAMENTO]
🚧 EM PROCESSAMENTO
10
COUNT, COUNT_IF e COUNT + WHERE
Entendo os aspectos de contagem
11
Manipulando colunas de texto [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
12
Manipulando colunas de tempo
Timestamp e Datetime
1
Operações de Junção: JOIN
Juntando Delta Tables no Databricks
2
Operações de Conjuntos
UNION, INTERSECT, EXCEPT, MINUS
3
Manipulando colunas JSON
Acessando campos e convertendo tipos
4
Manipulando colunas ARRAY
Trabalhando com Tipagem e Funções de ARRAY
5
Operação PIVOT
Pivotando tabela para mudar perspectiva
6
Higher-order functions: Funções de Alto Nível
TRANSFORM, FILTER, EXISTS, AGGREGATE, REDUCE
7
Controle de Fluxo: CASE/WHEN
Aplicando condições para controlar o fluxo
8
SQL UDFs
Reutilizando código SQL com funções
1
Ingestão Incremental de Dados com COPY INTO
Copiando dados de arquivos
2
Aplicando COPY INTO
Processamento Idempotente de Arquivos Brutos para Delta Table
3
Spark Structured Streaming
Principais Funcionalidades
4
Aplicando processamento em streaming [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
5
Ingestão Incremental de Dados com AutoLoader [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
6
Usando AutoLoader para Ingestão [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
1
Introdução ao Databricks Workflows
Entendendo definições em torno de orquestração
2
Databricks Jobs
Compreendendo Jobs
3
Explorando a Interface do Databricks Workflows (Parte 1)
Criando um Job e Tasks
4
Explorando a Interface do Databricks Workflows (Parte 2)
Explorando as opções de Job e Execução
5
Projeto - Pipeline de Evolução de Dados (Parte 1)
Fluxo da bruta da bronze
6
Projeto - Pipeline de Evolução de Dados (Parte 2)
Fluxo da bronze para a gold
7
Projeto - Pipeline de Evolução de Dados (Parte 3)
Construindo fluxo de trabalho no Workloads e Execução
8
Projeto - Pipeline de Evolução de Dados (Parte 4)
Reparação de Execução para dados de 2010
9
[🚧 EM PROCESSAMENTO] Configurando gatilhos
Agendamento e por Arquivos
10
[🚧 EM PROCESSAMENTO] Fluxos de Controle
Execução de Job, Condicionais e Para Cada
11
[🚧 EM PROCESSAMENTO] Pipelines de ETL e de Ingestão
Explorando outras opções do Workflows além do Jobs
O que Você Vai Aprender
- Conceitos de Delta Lake e sua aplicação no Databricks
- Estrutura e vantagens da arquitetura Lakehouse
- Construção de ETL com SQL Spark e Python no Databricks
- Princípios de Governança de Dados no ambiente Databricks
- Criação de Pipelines de Dados produtivos e escaláveis