Generative models for visual and spatial information

Transforming vision and spatial tasks into language modeling problems.

Read the report: https://api.wandb.ai/links/ccaven/fzcevldh

Directory structure

The important files are as follows:

generate_block_bezier_dataset.py constructs the training data for the VQ-VAE
train_vqvae.py actually trains the VQ-VAE
generate_random_plane_2_dataset.py constructs the training data for the transformer
train_transformer_5.py actually trains the transformer

Why all the files?

I made quite a few attempts with various methods, so I left those methods in the repository. For example, the src/encoder_decoder folder and train_encoder_decoder.py file contains an attempt at writing a different kind of autoencoder for images where the decoder is not a convolution network but instead an autoregressive next token predictor. The src/diffusion contains a similar attempt where the decoder is a diffusion network.

Credits

The src/nanogpt folder is largely taken from Andrej Karpathy's nanoGPT project.
The src/diffusion_2 folder is cloned from milmor/diffusion-transformer and includes the original files and license.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
src		src
.gitignore		.gitignore
README.md		README.md
generate_block_bezier_dataset.py		generate_block_bezier_dataset.py
generate_fixed_step_dataset.py		generate_fixed_step_dataset.py
generate_random_plane_2_dataset.py		generate_random_plane_2_dataset.py
generate_random_plane_dataset.py		generate_random_plane_dataset.py
test_dataset.ipynb		test_dataset.ipynb
test_fib_stereograph.ipynb		test_fib_stereograph.ipynb
test_transformer_4.ipynb		test_transformer_4.ipynb
test_transformer_5.ipynb		test_transformer_5.ipynb
train_diffusion.py		train_diffusion.py
train_diffusion_2.py		train_diffusion_2.py
train_encoder_decoder.py		train_encoder_decoder.py
train_encoder_decoder_2.py		train_encoder_decoder_2.py
train_encoder_decoder_3.py		train_encoder_decoder_3.py
train_transformer.py		train_transformer.py
train_transformer_2.py		train_transformer_2.py
train_transformer_3.py		train_transformer_3.py
train_transformer_4.py		train_transformer_4.py
train_transformer_5.py		train_transformer_5.py
train_vqvae.py		train_vqvae.py
train_vqvae_with_attn.py		train_vqvae_with_attn.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Generative models for visual and spatial information

Directory structure

Why all the files?

Credits

About

Languages

ccaven/spatial-visual-models

Folders and files

Latest commit

History

Repository files navigation

Generative models for visual and spatial information

Directory structure

Why all the files?

Credits

About

Topics

Resources

Stars

Watchers

Forks

Languages