Skip to content

cesurapp/llama2-pdf

Repository files navigation

Llama2 Flask AI Server using LLamaCPP

Supported:

  • CPU
  • M1 Metal GPU
  • Cuda GPU

Warning:

  • Docker MacOS üzerinde en az 5 kat yavaş çalışıyor, sanallaştırmadan kaynaklı. Native kurulum yapın.
  • Linux üzerinde GPU kullanımı için ekran kartı sürücüleri host sisteme yüklenmeli ve docker kullanılacak ise "Cuda Container Toolkit" yüklenmeli
  • Model dosyaları HuggingFace'ten otomatik olarak "models" dizinine indirilir. Bu dizin eğer docker ile kullanılacak ise paylaşım yapılmalı.
  • MacOS için xcode-select --install gereklidir.
  • 7b 16GB - 13b 32GB - 70b 140GB ortalama Ram|vRam gerektirir.
  • 70b CPU üzerinde çalıştırılmamalıdır.

Dependencies/Model:

ENV:

The predefined models are in the src/models.py file.

MODEL=7b-Q4KM-CHAT
HOST=0.0.0.0
PORT=3000

Installation

Mac M1/M2 Metal GPU

git clone <repo>
sh ./install_mac.sh

Linux for CPU

git clone <repo>
sh ./install_linux.sh

Linux for GPU

git clone <repo>
sh ./install_linux.sh

Docker (Only Linux, very slow on MacOS)

docker compose up --remove-orphans --build

Run

python3 src/server.py

API

HTTP Server: 127.0.0.1:3000

endpoint: http://127.0.0.1:3000/ask

RAW JSON Content:

{
    "textContext": "My name is Cesur Apaydın",
    "pdfContextBase64": "",
    "prompts": [
        "What is person's full name?",
        "What is person's role?",
        "What are their skills?"
    ]
}

About

LLama2Cpp PDF QA

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published