Este é um projeto de análise do conjunto de dados públicos de comércio eletrônico brasileiro disponibilizados pelo site Olist via plataforma Kaggle, são registros de vendas, valores, geolocalização, cadastros, entre outros que abrangem todo um processo venda de um produto por via on-line, são dados reais, entretanto, conforme informado pelos publicadores do dataset, os dados foram anonimizados, sendo que, por exemplo, os nomes das empresas foram subistituídos pelas grandes casas da série Game of Thrones.
- Replicar os datasets para um banco de dados SQL
- Executar a exploração dos dados via SQL
- Aplicar ETL nas tabelas via PySpark
- Exportar dados para construção de uma apresentação
- Qual o total(quantidade) de vendas divididas por estado?
- Qual o total(valor) de vendas e fretes divididos por estado?
- Qual o total(quantidade) e distribuição(%) de vendas por hora?
- Qual a média(valor) de vendas por hora?
- Qual o ticket médio nos anos de 2016, 2017 e 2018?
- Qual a distribuição(%) da pontuação do pedidos?
- Quais as 10 cidades com as maiores volumes(quantidade) de vendas?
- Quais as 10 cidades com os maiores volumes(valores) de vendas e fretes?
- Qual a quantidade de produtos cadastrados por categoria?
- Qual a quantidade e distribuição(%) das categorias nos pedidos?
- Qual a quantidade de vendas por vendedor?
- PostgreSQL
- PySpark
Licença MIT (MIT). Por favor leia o arquivo da licença para mais informações.