Exercício de pesquisa de texto implementando um algorítimo de busca de texto completo (fulltext search). Não é um llm
(large language model) pois o texto para treinamento é muito pequeno. Foi usado como referência os seguintes livros:
- Programando A Inteligencia Coletiva - Toby Segaran - 2008
- Web Scraping com Python - 2ª Edição - Ryan Mitchell - 2019
- Data Science do Zero - Joel Grus - 2016
Lembrando que esse não é um projeto pronto para produção, é um exercício de programação de criação de um banco de dados de vetor em uma abordagem relacional, utilizando um algorítimo de contagem.
Etapas:
- - Criar repositório no github
- - Baixar transcrições
- - Leitura dos arquivos e mapear em um banco de dados
- - Blog Post
Esse reposótiorio, a idéia é documentar cada passo
Baixar a transcrição dos episódios do repositório, filtrar os *.txt
, utilizar o csv com os campos.
Campo | Descrição |
---|---|
id |
Campo único de Identificação do Episódio |
link |
Link para o episódio |
descricao |
Breve resumo do episódio |
arquivo |
Nome do Arquivo com a descrição |
A princípio a idéia era baixar os arquivos raw, porém em alguns casos eles demoram atualizar, sendo melhor baixar os arquivos diretamente do repositório com as trasncrições com o git:
git clone https://github.com/tribodoci/tribodoci-podcast-transcript.git
O caminho no arquivo src/documentos.csv está considerando que o código do repositório estão na mesma pasta.
Ver doc/
Escrever sobre a solução em um blogpost na Tribo do C.I..