Skip to content

Latest commit

 

History

History
58 lines (50 loc) · 2.43 KB

notes.md

File metadata and controls

58 lines (50 loc) · 2.43 KB

Outline

  • technische Schnittstelle zum Sprachmodell
    • Auswahl des Modells
  • Prompt-Engineering
  • Videoauswahl für Entwicklung und Tests
    • evtl erstmal testbilder
  • Bilder aus Videos ausschneiden
  • Design: Wie kann das nachher gut aussehen? Details/Mockup bzgl. Overlay
  • Technische Umsetzung: Untertiteldatei
  • Technische Umsetzung: Einbetten ins Video
  • Videos anschauen und nach Fehlern/Verbesserungsmöglichkeiten schauen

Additional ideas

  • provide more context to the model in text form?
  • haystack?
  • Kombination von Modellen? MiniGPT-4 -> GPT 3.5-Turbo

Schnittstellen

  • Bilddatei im png/jpg format, dazu zu jedem Bild eine json datei mit gleichem namen aber anderer endung
    • Die JSON-datei enthält metadaten inklusive out des tools
    • bilddateien nach zeit organisieren (im dateinamen sodass man danach sortieren kann)
  • Eine Logdatei die die verarbeitungsschritte trackt (bilddübergreifend)
  • Im wesentlichen drei komponenten:
    1. Bild inklusive Metadaten aus Video extrahieren
    2. Bild zu Text
    3. Text anzeigen

Video libraries

Useful links:

Models

MiniGPT-4 weight-merge command history

git lfs install
git clone https://huggingface.co/lmsys/vicuna-13b-delta-v0
git clone https://huggingface.co/decapoda-research/llama-13b-hf
python -m fastchat.model.apply_delta --base /code/vicuna_weights/llama-13b-hf/  --target /code/vicuna_weights/merged/  --delta /code/vicuna_weights/vicuna-13b-delta-v0/
conda activate minigpt4
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml  --gpu-id 7