Monkfish: Distributed latent video model training on TPUs (and other stuff maybe)

This is the training code for a 2 stage autoregressive video model.

TODO:

Parameter scaling:

Jax sharding:

Data loader Design:

Name		Name	Last commit message	Last commit date
Latest commit History 96 Commits
misc		misc
monkfish		monkfish
scripts		scripts
tests		tests
.gitignore		.gitignore
LICENSE.md		LICENSE.md
README.md		README.md
config_tpu_v3-32.json		config_tpu_v3-32.json
config_tpu_v3-8.json		config_tpu_v3-8.json
setup.py		setup.py