Busca de Texto

Exercício de pesquisa de texto implementando um algorítimo de busca de texto completo (fulltext search). Não é um llm (large language model) pois o texto para treinamento é muito pequeno. Foi usado como referência os seguintes livros:

Programando A Inteligencia Coletiva - Toby Segaran - 2008
Web Scraping com Python - 2ª Edição - Ryan Mitchell - 2019
Data Science do Zero - Joel Grus - 2016

Lembrando que esse não é um projeto pronto para produção, é um exercício de programação de criação de um banco de dados de vetor em uma abordagem relacional, utilizando um algorítimo de contagem.

Etapas:

- Criar repositório no github
- Baixar transcrições
- - Solução itermediária, baixar os arquivos locais
- Leitura dos arquivos e mapear em um banco de dados
- - Mapeamento das palavaras e dos documentos
- Blog Post

Criar repositório no github

Esse reposótiorio, a idéia é documentar cada passo

Baixar transcrições

Baixar a transcrição dos episódios do repositório, filtrar os *.txt, utilizar o csv com os campos.

Campo	Descrição
`id`	Campo único de Identificação do Episódio
`link`	Link para o episódio
`descricao`	Breve resumo do episódio
`arquivo`	Nome do Arquivo com a descrição

A princípio a idéia era baixar os arquivos raw, porém em alguns casos eles demoram atualizar, sendo melhor baixar os arquivos diretamente do repositório com as trasncrições com o git:

git clone https://github.com/tribodoci/tribodoci-podcast-transcript.git

O caminho no arquivo src/documentos.csv está considerando que o código do repositório estão na mesma pasta.

Processar os textos

Ver doc/

Blog Post

Escrever sobre a solução em um blogpost na Tribo do C.I..

Outras Referências

RETVec: Resilient & Efficient Text Vectorizer
Paper - Attention Is All You Need
ChromaDB - Chroma is the open-source AI application database. Batteries included

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Busca de Texto

Criar repositório no github

Baixar transcrições

Processar os textos

Blog Post

Outras Referências

Files

README.md

Latest commit

History

README.md

File metadata and controls

Busca de Texto

Criar repositório no github

Baixar transcrições

Processar os textos

Blog Post

Outras Referências