Sarah Nascimento

Início
Sobre
Experiência
Contato

// SELECT * FROM world;

Eu sou Sarah Nascimento

Especialista de dados com foco profundo em Engenharia de Dados, Databricks, Cloud Computing (AWS/GCP) e Database Tuning. Especialista na otimização de performance, workflows distribuídos e garantia de integridade em ambientes de Big Data.

Enviar e-mail LinkedIn

0

Anos de Experiência

0

Projetos e Clientes

0

Tecnologias Core

sarah@cloud:~$ whoami

Data & Business Specialist

Localização: Belo Horizonte/MG

Core: Data Eng. | AWS | GCP

sarah@cloud:~$ ./deploy_pipeline.sh --env=production

✓ Pipeline deployed to your system. Tuning applied.

sarah@cloud:~$

// Data Architecture

Minha Expertise

Olá! Sou Sarah Nascimento, especialista em Engenharia de Dados e arquitetura Cloud.

Tenho experiência avançada no ecossistema de Big Data e Cloud Computing (AWS, GCP, Databricks). Minha atuação é "hands-on" na criação de pipelines de dados eficientes, processamento distribuído com Apache Spark e implementação de Data Lakes/Lakehouses escaláveis.

Sou apaixonada por performance tuning, otimização de custos em nuvem e definição de arquiteturas robustas para operações críticas de negócio.

Stack Tecnológico & Skills

AWS (Glue, S3, EMR) GCP & BigQuery Databricks Python & PySpark Apache Spark SQL Server & T-SQL Delta Lake Arquitetura de Dados

Formação Acadêmica

Inteligência Artificial (Graduação) – Universidade Cruzeiro do Sul (2022 - 2024)
Física (Licenciatura) – Centro Universitário Una (2024 - 2027)
Eletroeletrônica (Pós-médio) – CEFET-MG (2018 - 2021)
Mecatrônica (Técnico) – SENAI (2017 - 2018)

Cloud Data Engineering

Design e implementação de pipelines em AWS, GCP e Databricks, focando em escalabilidade e otimização de custos.

DBA & Tuning

Otimização de performance, modelagem relacional, arquitetura de dados e queries avançadas (T-SQL/BigQuery).

Automação & Web Scraping

Desenvolvimento de scripts em Python para extração de dados da web e automação de workflows via APIs.

Data Analytics & BI

Criação de relatórios RDL, dashboards complexos (Power BI, Looker, Tableau, Grafana) e automação analítica.

// Vitrine Técnica

Showcase Visual & Código

Engenharia em Prática

Otimização de compute, tabelas delta, raspagem de dados e consultas analíticas de alta performance.

databricks_compute_optimize.py

from pyspark.sql import functions as F

spark.conf.set("spark.sql.adaptive.enabled", "true")
spark.conf.set("spark.sql.adaptive.coalescePartitions.enabled", "true")
spark.conf.set("spark.sql.adaptive.skewJoin.enabled", "true")
spark.conf.set("spark.databricks.io.cache.enabled", "true")

df_optimized = spark.table("silver.telemetry_raw") \
    .repartition(F.col("device_id")) \
    .sortWithinPartitions("event_time")

df_optimized.write.format("delta") \
    .option("dataChange", "false") \
    .mode("overwrite") \
    .saveAsTable("silver.telemetry_optimized")
...

zorder_optimization.sql

-- Otimização de leitura e data skipping com Z-Order em tabelas Delta
OPTIMIZE gold.user_transactions
ZORDER BY (user_id, transaction_date);

-- Análise das estatísticas pós-otimização
DESCRIBE HISTORY gold.user_transactions;
ANALYZE TABLE gold.user_transactions COMPUTE STATISTICS;
...

delta_upsert.py

from delta.tables import DeltaTable

# Instancia a tabela Delta destino
deltaTable = DeltaTable.forPath(spark, "s3://data-lake/silver/clients")

# Executa o Upsert (Merge) massivo de atualizações e inserções
deltaTable.alias("tgt").merge(
    df_updates.alias("src"),
    "tgt.client_id = src.client_id"
).whenMatchedUpdateAll(
).whenNotMatchedInsertAll().execute()
...

create_partitioned_table.sql

-- Criação de tabela particionada com auto-otimização (Databricks)
CREATE TABLE IF NOT EXISTS silver.events_log (
    event_id STRING,
    user_id STRING,
    event_type STRING,
    event_timestamp TIMESTAMP,
    processing_date DATE
)
USING DELTA
PARTITIONED BY (processing_date)
TBLPROPERTIES (
    'delta.autoOptimize.optimizeWrite' = 'true',
    'delta.autoOptimize.autoCompact' = 'true',
    'delta.deletedFileRetentionDuration' = 'interval 15 days'
);
...

api_ingestion.py

import requests

def fetch_paginated_data(api_url, headers):
    results = []
    page = 1
    
    while True:
        response = requests.get(f"{api_url}?page={page}", headers=headers)
        response.raise_for_status()
        data = response.json()
        
        if not data.get('items'): 
            break
            
        results.extend(data['items'])
        page += 1
        
    return results
...

dbutils_secrets.py

# Acesso seguro via Azure Key Vault / Databricks Secrets
jdbc_user = dbutils.secrets.get(scope="kv-prod", key="db-user")
jdbc_pass = dbutils.secrets.get(scope="kv-prod", key="db-pass")

df_jdbc = spark.read.format("jdbc") \
    .option("url", "jdbc:postgresql://server:5432/prod_db") \
    .option("dbtable", "sales.orders") \
    .option("user", jdbc_user) \
    .option("password", jdbc_pass) \
    .option("fetchsize", 10000) \
    .load()
...

async_web_scraper.py

import httpx
import asyncio
from bs4 import BeautifulSoup

async def fetch_and_parse(url: str, proxy: str = None):
    limits = httpx.Limits(max_keepalive_connections=10, max_connections=20)
    
    async with httpx.AsyncClient(limits=limits, proxies=proxy) as client:
        response = await client.get(url, headers={"User-Agent": "Mozilla/5.0"}, timeout=10.0)
        response.raise_for_status()
        
        soup = BeautifulSoup(response.text, 'lxml')
        payload = [
            {"id": node.get('data-id'), "val": node.find('span', class_='metric').text.strip()}
            for node in soup.select('div.data-row') if node.get('data-id')
        ]
        return payload
...

recursive_hierarchy_analysis.sql

WITH RECURSIVE Hierarchy AS (
    SELECT id, parent_id, amount, 1 AS level
    FROM transactions.raw_ledger
    WHERE parent_id IS NULL
    
    UNION ALL
    
    SELECT child.id, child.parent_id, child.amount, h.level + 1
    FROM transactions.raw_ledger child
    INNER JOIN Hierarchy h ON child.parent_id = h.id
),
RankedLedger AS (
    SELECT *, 
           SUM(amount) OVER (PARTITION BY parent_id ORDER BY level DESC) as rolling_sum
    FROM Hierarchy
)
SELECT * FROM RankedLedger WHERE rolling_sum > 100000;
...

Galeria de Dashboards

Visualizações dinâmicas criadas em Power BI, Grafana e Tableau.

Painel Financeiro

People Analytics

Gestão de Projetos

Gestão de Atendimento

// Portfólio Ativo

Principais Projetos

⚙️ Pipeline Tuning & Cloud Data

Liderança em iniciativas de engenharia de dados com foco pesado em performance tuning e redesign de arquiteturas em nuvem. Redução significativa de custos e tempo de processamento em ambientes AWS e Databricks.

AWS Glue/EMR Databricks PySpark

📊 Data Analytics & BI

Construção de dashboards interativos e painéis visuais para monitoramento de KPIs estratégicos. Criação de relatórios gerenciais complexos utilizando Power BI e DAX para suportar decisões de negócio.

Power BI DAX Google BigQuery

🕸️ Automação & Integrações

Desenvolvimento de scripts robustos em Python e integrações via API para enriquecimento de Data Lakes. Automação de fluxos de trabalho complexos e extração de dados da web.

Python APIs REST Web Scraping

💼 Trajetória Profissional

Data & Business Specialist

Set/2025 - Presente

Ana Gaming | Nova Lima, MG

Liderança em iniciativas de engenharia de dados, focando em performance tuning e otimização de jobs em ambiente Cloud.
Redesign completo de pipelines para garantir maior eficiência no processamento distribuído.
Implementação e monitoramento de governança e regras estritas de Anti-Money Laundering (AML) e Jogo Responsável.
Definição de processos de dados e disseminação de melhores práticas técnicas de SQL por toda a equipe.

Senior-Level Mid Data Analyst

Mar/2025 - Set/2025

IEBT Innovation | Belo Horizonte, MG

Fornecimento de suporte técnico especializado e mentoria para analistas juniores dentro da equipe de dados.
Desenvolvimento de workflows de dados automatizados utilizando Python e integrações via APIs.
Criação de soluções de web scraping e scripts escaláveis para enriquecimento de datasets de negócios.
Participação chave em projetos de consultoria de dados para clientes como MRV, Petrobras, Bamaq e Delp.

Data Analyst

Mar/2024 - Set/2025

MRV | Belo Horizonte, MG

Desenvolvimento e manutenção de pipelines de dados robustos no Google Cloud Platform (GCP).
Criação e otimização de queries complexas no Google BigQuery para análise de dados e relatórios.
Desenvolvimento de dashboards interativos no Power BI para embasar decisões de negócios e métricas de produtos.
Automação de processos repetitivos e condução de análises de KPIs para monitoramento em tempo real.

Mid-Level Data Analyst

Out/2023 - Mar/2024

RadarFit | Belo Horizonte, MG

Implementação de workflows de extração e modelagem de dados para suportar os processos de analytics.
Desenvolvimento de dashboards visuais no Power BI para monitoramento de indicadores chave de performance (KPIs).
Criação e manutenção de relatórios de performance mensais baseados em bases de dados consolidadas.
Utilização do Figma para prototipação e design focado em interfaces analíticas e de dados.

Junior Data Analyst & Data Assistant

Mai/2022 - Out/2023

LM 2 Rodas | Nova Lima, MG

Suporte ativo na arquitetura, design e manutenção de pipelines ETL para a equipe de dados.
Desenvolvimento de reports gerenciais avançados utilizando DAX no Power BI para tomada de decisão.
Criação de processos automatizados para o rastreio e monitoramento contínuo de dados críticos do negócio.
Análise de dados operacionais e implementação de métricas focadas na otimização de processos internos.

// Entre em Contato

Vamos Otimizar Seus Dados

Precisa de arquitetura de dados escalável no Databricks, em Cloud (AWS/GCP), tuning de pipelines pesados, criação de web scraping ou automação de processos críticos? Estou à disposição para conectar.

sarah.sqn@gmail.com linkedin.com/in/sarah-kelly-nascimento

Belo Horizonte, MG - Brasil