Português (BR) | English (US)

Processamento de dados

Dentro do ecossistema do Querido Diário, este repositório é o responsável por transformações em documentos e carregamento nos armazenamentos adequados.

Conheça mais sobre as tecnologias e a história do projeto.

Sumário

Como contribuir
Ambiente de desenvolvimento
Como executar
Suporte
Agradecimentos
Open Knowledge Brasil
Licença

Como contribuir

Agradecemos por considerar contribuir com o Querido Diário! 🎉

Você encontra como fazê-lo no CONTRIBUTING.md!

Além disso, consulte a documentação do Querido Diário para te ajudar.

Ambiente de desenvolvimento

Para configurar o ambiente de desenvolvimento, é necessário o gestor de containers podman.

Por meio de um terminal aberto no diretório raíz do repositório, use a sequência de comandos a seguir para construir as imagens e montar o pod e os containers de recursos em sistema operacional Linux:

make build
make setup

Para mais detalhes sobre a configuração leia "como configurar o ambiente de desenvolvimento".

Como executar

Para executar qualquer pipeline, é necessário popular o banco de metadados (Postgres) e baixar documentos para o armazenamento de objetos (Minio), para isso, podemos usar o repositório de raspadores de acordo com a documentação de configuração de ponta-a-ponta.

Após a execução de raspadores, podemos executar o pipeline de extração textual que populará o motor de busca (Opensearch) com o índice principal (texto completo de diários) e os índices temáticos (excertos de diários relacionados a algum tema). Isto é feito por meio do comando:

make re-run

Por padrão, este pipeline processará todos os documentos do banco, independente se já foram processados previamente. Se desejar mudar este comportamento, altere a variável de ambiente EXECUTION_MODE no envvars.

Com os textos extraídos, também podemos executar o pipeline de agregação de dados, que disponibiliza os textos dos diários em formato CSV. Para isso, execute:

make aggregate-gazettes

Os resultados podem ser encontrados no motor de busca e no armazenamento de objetos. Encontre dicas de como acessá-los nesta documentação.

Suporte

Ingresse em nosso canal de comunidade para trocas sobre os projetos, dúvidas, pedidos de ajuda com contribuição e conversar sobre inovação cívica em geral.

Agradecimentos

A aplicação foi inicialmente desenvolvida junto às pessoas do estúdio de software Jurema.

Este projeto é mantido pela Open Knowledge Brasil e possível graças às comunidades técnicas, às Embaixadoras de Inovação Cívica, às pessoas voluntárias e doadoras financeiras, além de universidades parceiras, empresas apoiadoras e financiadoras.

Conheça quem apoia o Querido Diário.

Open Knowledge Brasil

A Open Knowledge Brasil é uma organização da sociedade civil sem fins lucrativos, cuja missão é utilizar e desenvolver ferramentas cívicas, projetos, análises de políticas públicas, jornalismo de dados para promover o conhecimento livre nos diversos campos da sociedade.

Todo o trabalho produzido pela OKBR está disponível livremente.

Licença

Código licenciado sob a Licença MIT.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Processamento de dados

Sumário

Como contribuir

Ambiente de desenvolvimento

Como executar

Suporte

Agradecimentos

Open Knowledge Brasil

Licença

Files

README.md

Latest commit

History

README.md

File metadata and controls

Processamento de dados

Sumário

Como contribuir

Ambiente de desenvolvimento

Como executar

Suporte

Agradecimentos

Open Knowledge Brasil

Licença