mallam-scrape

website scrapping tool for mallam-ai

Pre-requisites

Install go from https://go.dev
Execute go get ./... to install dependencies

Tool `mallam-scrape`

go run ./cmd/mallam-scrape "https://www.marxists.org/archive/marx/"

This will scrape all urls and save to out/www.marxists.org/../.. directory

Tool `mallam-extract-text-marx`

go run ./cmd/mallam-extract-text-marx

This will read all HTML files in out/www.marxists.org/archive/marx/works and save plain text to out/text-marx.txt

Internal Logic

Iterate subdirectories in archive/marx/works with 4-digits prefixed
Ignore index.htm files
Collect <p> element without class
Combine all text together

Credits

MALLAM Developers, MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
cmd		cmd
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
SECURITY.md		SECURITY.md
doc.go		doc.go
go.mod		go.mod
go.sum		go.sum

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

mallam-scrape

Pre-requisites

Tool `mallam-scrape`

Tool `mallam-extract-text-marx`

Credits

About

Releases

Packages

Languages

License

mallam-ai/mallam-scrape

Folders and files

Latest commit

History

Repository files navigation

mallam-scrape

Pre-requisites

Tool mallam-scrape

Tool mallam-extract-text-marx

Credits

About

Resources

License

Security policy

Stars

Watchers

Forks

Releases

Packages 0

Languages

Tool `mallam-scrape`

Tool `mallam-extract-text-marx`

Packages