A Inteligência Artificial vem revolucionando todos os setores
Conheça o nosso trabalho através das histórias de sucesso que compartilhamos com quem mais importa: nossos clientes.
Data Lake na AWS para grupo varejista de moda: centralização de dados
on-premises e analytics em escala com governança e segurança
Contexto: Um grupo varejista brasileiro de moda com operação industrial e de varejo (lojas físicas e e-commerce) precisava centralizar dados fragmentados em múltiplos sistemas legados on-premises - ERP de varejo (SQL Server), sistema industrial (Oracle), manutenção (SQL Server), tickets (MySQL), e dados históricos de BI - em uma plataforma única e escalável para habilitar analytics por todas as áreas de negócio (Financeiro, Vendas, Comercial, Industrial e Supply Chain). O desafio incluía lidar com ~1 bilhão de registros processados diariamente, sistemas legados com restrições técnicas (stored procedures que reescrevem dados históricos), conectividade de rede entre on- premises e cloud com redundância (fábrica em Paraíba, sede no Rio de Janeiro), e necessidade de governança com segmentação de acesso por área funcional.
Solução: Foi construída uma arquitetura de Data Lake / Lake House na AWS com arquitetura medalhão (Bronze > Silver > Gold) em Amazon S3. A ingestão utiliza AWS DMS para bases relacionais e AWS Glue para extração via JDBC. Fontes cloud (SharePoint, APIs externas) são integradas via AWS Lambda. A orquestração centralizada é feita com Apache Airflow em Amazon EKS, executando transformações dbt. Para governança, foi implementado AWS Lake Formation com Tag-Based Access Control (TBAC), segmentando o acesso por área de negócio. O catálogo e descoberta de dados usam AWS Glue Crawlers e Data Catalog, com consumo analítico via Amazon Athena. Toda a infraestrutura é gerenciada como código com Terraform e Atlantis (GitOps). A conectividade on-premises é garantida por VPN Site-to-Site e alertas operacionais são enviados em tempo real via Amazon SNS integrado ao Slack.
Impacto Gerado:
-
Centralização de dados de 5 sistemas legados on-premises + fontes cloud em uma fundação analítica unificada.
-
Democratização do acesso a dados com governança por área (Lake Formation TBAC), eliminando consultas diretas a bancos de produção.
-
Redução significativa do time-to-insight: consultas ad-hoc em segundos via Athena sobre dados curados (Silver/Gold).
-
Base preparada para analytics avançados (churn, recomendação, otimização de sortimento) como próxima fase.
Arquitetura - Principais serviços AWS utilizados:
-
Amazon S3 (Data Lake - Bronze/Silver/Gold, Parquet)
-
AWS DMS (ingestão Full Load + CDC com auto-scaling)
-
AWS Glue (PySpark Jobs + Crawlers + Data Catalog)
-
Amazon EKS (Airflow orquestração + dbt pods efêmeros)
-
AWS Lake Formation (governança TBAC por área de negócio)
-
Amazon Athena (consultas serverless)
-
AWS Lambda (conectores OneDrive/APIs + health checks VPN)

