
Engenharia de Dados no Databricks I
Curso Introdutório ao uso do Databricks para Engenharia de Dados

Iury Rosal
Engenheiro de Dados
10 horas
5 capítulos
Iniciante
Adquirir acesso
Descrição do Curso
Conteúdo do Curso
1
Sobre esta Disciplina
Grade Curricular e Objetivos
2
Link para o Repositório
Acesse todos os códigos e repositórios
3
O que é Databricks e Lakehouse?
Plataforma Lakehouse Multicloud e Arquitetura
4
Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
Paper escrito pelos criadores do Databricks sobre Lakehouse
5
Criando Conta Gratuita
Iniciando no Databricks Community Edition
6
Navegando no Workspace [🚧 EM PROCESSAMENTO]
Compreendendo a estrutura do workspace
7
Criando o Cluster (Community Edition)
Seu primeiro cluster no Databricks
8
Entendendo o Layout Dos Notebooks
Fundamentos dos Notebooks no Databricks
9
Comandos Mágicos
Magic Commands (%) e DButils
1
Objetos de Dados do Databricks
Catalogos, Schemas (Databases) e Tabelas
2
Revisão de SQL no Databricks
Consultando Dados no Databricks
3
Explorando o Output de Data Tables
Por meio de arquivos
4
Utilizando datasets do Databricks
Explorando mais dados públicos
1
Introdução ao Delta Lake
Compreendendo principais funcionalidades do Delta Lake
2
Compreendendo o Funcionamento do Delta Lake
Explorando de forma lúdica
3
Explorando o Funcionamento do Delta Lake
Laboratório
4
Time Travel
Viaje no tempo com Delta lake
5
Aplicando Lógica de Time Travel
Laboratório
6
Otimização em Delta Tables
Aplicando OPTIMIZE e Indexação Z-ORDER
7
Uso do comando VACUUM
Fazendo a limpa!
8
Aplicando Otimizações
Laboratório
9
Data Tables e Databases (Schemas)
Gerenciados e Externos
10
Lidando com Tabelas Gerenciadas e Externas
Laboratórios
11
Arquitetura Multi-hop e Medalhão
Bronze, Silver e Gold
12
[SLIDES] DATABRICKS LAKEHOUSE PLATFORM - Introdução ao Delta Lake
Baixe o material utilizado em aula
13
Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores
Paper escrito pelos criadores do Delta Lake e Databricks
1
O que é ELT? [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
2
Consultando Dados a partir de arquivos
Laboratório
3
Criando Tabelas a partir de arquivos
Laboratório
4
Criando Tabelas a partir de consultas
Laboratório
5
Criando Tabelas já existentes
Laboratório
6
Escrevendo em Tabelas
Laboratório
7
Views
Laboratório
8
UPSERT com operação MERGE
Laboratorio
9
Copiando Tabelas [🚧 EM PROCESSAMENTO]
🚧 EM PROCESSAMENTO
10
COUNT, COUNT_IF e COUNT + WHERE [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
11
Manipulando colunas de texto [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
12
Manipulando colunas de tempo [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
1
Operações de Junção: JOIN
Juntando Delta Tables no Databricks
2
Operações de Conjuntos
UNION, INTERSECT, EXCEPT, MINUS
3
Manipulando colunas JSON
Acessando campos e convertendo tipos
4
Manipulando colunas ARRAY
Trabalhando com Tipagem e Funções de ARRAY
5
Operação PIVOT
Pivotando tabela para mudar perspectiva
6
Higher-order functions: Funções de Alto Nível
TRANSFORM, FILTER, EXISTS, AGGREGATE, REDUCE
7
Controle de Fluxo: CASE/WHEN
Aplicando condições para controlar o fluxo
8
SQL UDFs
Reutilizando código SQL com funções
1
Ingestão Incremental de Dados com COPY INTO
Copiando dados de arquivos
2
Aplicando COPY INTO [🚧 EM PROCESSAMENTO]
Copiando dados de arquivos [🚧 EM PROCESSAMENTO]
3
Spark Structured Streaming
Principais Funcionalidades
4
Aplicando processamento em streaming [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
5
Ingestão Incremental de Dados com AutoLoader [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
6
Usando AutoLoader para Ingestão [🚧 EM PROCESSAMENTO]
[🚧 EM PROCESSAMENTO]
O que Você Vai Aprender
- Conceitos de Delta Lake e sua aplicação no Databricks
- Estrutura e vantagens da arquitetura Lakehouse
- Construção de ETL com SQL Spark e Python no Databricks
- Princípios de Governança de Dados no ambiente Databricks
- Criação de Pipelines de Dados produtivos e escaláveis