16384

dc9012a7 · Eden_WangZx · faa0166a · dc9012a7
Commit dc9012a7 authored 8 months ago by Eden_WangZx
--- a/models/vanilla_llama3_baseline.py
+++ b/models/vanilla_llama3_baseline.py
@@ -64,7 +64,7 @@ class Llama3_70B_ZeroShotModel(ShopBenchBaseModel):
            # dtype="half", # note: bfloat16 is not supported on nvidia-T4 GPUs
            enforce_eager=True,
            quantization="AWQ",
-            max_model_len=8000,
+            max_model_len=16384,
            enable_prefix_caching=True
        )
        self.tokenizer = self.llm.get_tokenizer()