- technische Schnittstelle zum Sprachmodell
- Auswahl des Modells
- Prompt-Engineering
- Videoauswahl für Entwicklung und Tests
- evtl erstmal testbilder
- Bilder aus Videos ausschneiden
- Design: Wie kann das nachher gut aussehen? Details/Mockup bzgl. Overlay
- Technische Umsetzung: Untertiteldatei
- Technische Umsetzung: Einbetten ins Video
- Videos anschauen und nach Fehlern/Verbesserungsmöglichkeiten schauen
- provide more context to the model in text form?
- haystack?
- Kombination von Modellen? MiniGPT-4 -> GPT 3.5-Turbo
- Bilddatei im png/jpg format, dazu zu jedem Bild eine json datei mit gleichem namen aber anderer endung
- Die JSON-datei enthält metadaten inklusive out des tools
- bilddateien nach zeit organisieren (im dateinamen sodass man danach sortieren kann)
- Eine Logdatei die die verarbeitungsschritte trackt (bilddübergreifend)
- Im wesentlichen drei komponenten:
- Bild inklusive Metadaten aus Video extrahieren
- Bild zu Text
- Text anzeigen
- moviepy: https://zulko.github.io/moviepy/examples/painting_effect.html
- opencv: https://pypi.org/project/cv2watermark/
- ffmpeg?
- https://zulko.github.io/moviepy/examples/painting_effect.html
- https://www.eventbrite.de/e/codingwaterkant-2023-tickets-493782716397
- https://www.waterkant.sh/de/coding-waterkant
- https://huggingface.co/spaces/Vision-CAIR/minigpt4
- https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA
git lfs install
git clone https://huggingface.co/lmsys/vicuna-13b-delta-v0
git clone https://huggingface.co/decapoda-research/llama-13b-hf
python -m fastchat.model.apply_delta --base /code/vicuna_weights/llama-13b-hf/ --target /code/vicuna_weights/merged/ --delta /code/vicuna_weights/vicuna-13b-delta-v0/
conda activate minigpt4
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml --gpu-id 7