Sobre o curso
É um curso profissionalizante com foco no "por quê" das coisas, na teoria e na aplicação focada em resolver problemas. Esse curso tem o objetivo de eliminar "apertadores de botões" e transformar pessoas em seres racionais e aptos a montar estratégias analíticas.
O curso se estrutura em torno de um desafio e de uma proposta de ação - não é apenas um conjunto de conteúdos. A proposta do curso se ancora na visão de que um Cientista de Dados não é o indivíduo que sabe alguma linguagem de programação, mas sim o indivíduo que realmente entende o contexto, que visualiza a aplicação do que será desenvolvido, para depois entrar em ação. Para tanto, o curso é pautado em teoria fundamentada à aplicação de problemas reais, com professores que aplicam Ciência de Dados no dia a dia.
Pré-requisitos
Necessário mínimo conhecimento de Algebra
Necessário trabalho de conclusão do curso (TCC)Este curso não possui pré-requisitos
Conteúdo do curso
1. Nivelamento Teórico Estatístico
Estatística Descritiva
Distribuições
Teorema do Limite Central
Teste de Hipótese
2. Introdução à Computação e Conceitos
Conceitos
Programação
Bancos de Dados
Big Data
3. Computação em Nuvem
O que é?
Principais Serviços
Amazon - AWS
Microsoft Azure
Google Cloud Platform - GCP
4. Introdução ao SQL
Consultas SQL básicas
Consultas SQL avançadas
Modificação de Dados
5. Introdução ao Python
Conceitos Básicos
Estruturas de Controle de Fluxo e Bibliotecas
Bibliotecas para Manipulação de Dados
Conexão com Banco de Dados
6. Introdução ao R
Introdução ao R
Ambientação ao Re ao Rstudio
Importação de Bases para Dentro do R
Manipulação de Bases de Dados
Acesso a Bases de Dados Remotas
7. Regressão Linear
Modelo de Regressão Linear Simples e Múltipla
Método dos Mínimos Quadrados
Método de Seleção de Variáveis
Multicolinearidades
Métodos de Generalização
Interpretação e Tunagem
Métricas de Qualidade de Ajuste
8. Regressão Logística
Modelo de Regressão Logistica Simples e Múltipla
Método de Seleção de Variáveis
Métodos de Generalização
Interpretação e Tunagem
Métricas de Qualidade de Ajuste
9. Arvore de Decisão / Random Forest / Gradient Boosting
Árvore de Regressão e Classificação
Método de Seleção de Variáveis
Métodos de Generalização
Interpretação e Tunagem
Métricas de Qualidade de Ajuste
10. Análise Fatorial
Cargas Fatoriais
Comunalidades
Especificidades
Rotações
Seleção de Fatores
Escores
11. Componentes Principais
Comentários Teóricos (Geometria)
Decomposição Espectral (Algebra)
Seleção do Número de Componentes
Independência ou Não Correlação
Visualização da Variabilidade
12. Redes Neurais / Deep Learning
História
Vantagens e Desvantagens
Linear Perceptron
Multilayer Perceptron
Aprendizado: Early Stopping, L1 e L2 Regularization e Dropout
CNN - Convolution Neural Network
RNN - Recurrent Neural Network
13. Support Vector Machine
Linhas, Planos, Hiperplanos e Superfície de Decisão
Multiplicadores de Lagrange
Otimização Lagrangiana
Programação Quadrática
Kernel Linear, Polinomial, Gaussiano e Laplaciano
Interpretação e Tunagem
14. Incremental Response Model
Junção dos Conceitos de Experimentação e Modelagem
Criação de Grupo Controle e Grupo de Ação
IRM ou UpLift Models
15. Monetização de Algoritmos
Para Que Serve um Modelo?
Métricas de Seleção
Como Trazer Valor?
Cenários de Monetização
16. Aplicações em Crédito
Risco de Crédito e Gerenciamento de Portfólio
Basiléia - uma Breve História
Visão Regulatória - RWA e Indices
IFRS 9 - Breve Overview
Entendendo Informações de Risco nas "Relações com Investidores"
Taxas de Default e Variáveis Mais Utilizadas
17. Monitoramento de Modelos
Pilares fundamentais
Gestão executiva de modelos e processo decisório
Governança e boas práticas
Aspectos regulatórios: ética e privacidade
Usando Machine Learning para monitoramento de modelos
Estudo de caso
18. Análise de Cluster
Cluster Hierárquico
Cluster Não Hierárquico
Premissas e Capacidades
19. Modelagem Multinível
Modelos Hierárquicos: Conceitos e Definições
Modelos HLM2
Modelos HLM3 com Medidas Repetidas
Modelos Multinível Não Lineares
Estimações em R
20. Séries Temporais
Dados Transacionais X Série de Tempo
Componentes das Séries Temporais
Lag Function, Autocorrelação e Ruído Branco
Random Walk
"Médias Móveis" Simples e Ponderadas
Modelos de Regressão
Alisamento Exponencial
Modelos: AR, MA, ARMA, ARIMA, ARIMAX, SARIMA, SARIMAX
Métricas de Qualidade do Ajuste
Holdout
21. Otimização
Modelagem de Problemas de Otimização Linear
Representação Gráfica e Solução Gráfica para Otimização Linear: Pontos extremos, vértices e soluções viáveis básicas. Otimalidade de pontos extremos.
Simplex: Primal e Dual (Lagrange)
Problemas no Formato Padrão e o Método Simplex Dual
Análise de eficiência
22. Text mining
Tipos de Ponderação e suas Diferenças
Word Cloud em Re Python
Criando o BOW
Problemas com Matrizes Esparsas
Como Calcular a Esparsidade?
Reduzindo a Dimensionalidade
Visão Teórica do SVD
23. Geoestatistica
Tipos de Dados Geográficos
Estruturas de Dados Geográficos
Georreferenciamento de Dados
Manipulação de Dados Vetoriais
Consultas por Atributos e Consultas Espaciais
Operações Espaciais
Mapas Temáticos
24. Social Network Analysis (SNA)
Introdução ao SNA
Conceitos do SNA
Aplicações
Métricas de Centralidade
Modularidade
25. Business Intelligence (BI)
Introdução ao BI
Modelagem e Arquitetura de Dados
Preparação de Dados e Visualização
Visualização de Dados Básica Técnicas de Visualização
O Futuro do BI
26. Criação de WebApp
Engenharia de ML
Introdução à PaaS (GCP AppEngine)
Introdução ao HTML
Introdução ao Front End
Introdução às APls
Visual Studio Code
Criação de Pacote Python
Microframework Flask
Criação da API
Criação da Interface
27. Lei Geral de Proteção de Dados
Breve introdução
Escopo de aplicação
Definições
Bases legais
Princípios
Segurança da Informação
Direitos dos titulares
Conceitos de Dados Pessoais e Agentes de Tratamento