Spaces:

swordfish7412
/

Amigo-v2

Paused

swordfish7412 commited on Nov 15

Commit

d3a0f1a

verified ·

1 Parent(s): ec97cab

Upload app.py with huggingface_hub

Files changed (1) hide show

app.py CHANGED Viewed

@@ -29,11 +29,19 @@ base_model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
     torch_dtype=torch.float16,
     device_map="auto",
-    trust_remote_code=True
 )
 # Load LoRA adapter
 model = PeftModel.from_pretrained(base_model, LORA_MODEL)
 print("✅ Amigo 1.0 loaded successfully!")
 @spaces.GPU
@@ -52,11 +60,12 @@ def chat(message, history):
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
-            max_new_tokens=512,
             temperature=0.7,
             top_p=0.9,
             do_sample=True,
-            pad_token_id=tokenizer.eos_token_id
         )
     # Decode

     BASE_MODEL,
     torch_dtype=torch.float16,
     device_map="auto",
+    trust_remote_code=True,
+    attn_implementation="eager"  # Fix: Use eager attention (faster on T4)
 )
 # Load LoRA adapter
 model = PeftModel.from_pretrained(base_model, LORA_MODEL)
+model.eval()
+# Disable cache for faster inference
+model.config.use_cache = False
+if hasattr(model.generation_config, 'use_cache'):
+    model.generation_config.use_cache = False
 print("✅ Amigo 1.0 loaded successfully!")
 @spaces.GPU
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
+            max_new_tokens=384,  # Reduced from 512 for faster responses
             temperature=0.7,
             top_p=0.9,
             do_sample=True,
+            pad_token_id=tokenizer.eos_token_id,
+            use_cache=False  # Explicitly disable cache
         )
     # Decode