Spaces:

milton124
/

IA_App

Build error

App Files Files Community

milton124 commited on Nov 24

Commit

dd4ac0c

verified ·

1 Parent(s): 6922200

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -52

app.py CHANGED Viewed

@@ -1,67 +1,78 @@
-import os
-from fastapi import FastAPI
-from pydantic import BaseModel
-from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 app = FastAPI()
-MODEL_REPO = "bartowski/Phi-3-mini-4B-instruct-GGUF"
-MODEL_FILE = "Phi-3-mini-4B-instruct.Q4_K_M.gguf"
-MODEL_PATH = f"/dev/shm/{MODEL_FILE}"
-# ---------------------------------------------------------
-# 1. Descargar modelo directamente a RAM (/dev/shm)
-# ---------------------------------------------------------
-if not os.path.exists(MODEL_PATH):
-    print("Descargando modelo a RAM...")
-    hf_hub_download(
-        repo_id=MODEL_REPO,
-        filename=MODEL_FILE,
-        local_dir="/dev/shm",
-        local_dir_use_symlinks=False
-    )
-# ---------------------------------------------------------
-# 2. Cargar modelo con llama.cpp
-# ---------------------------------------------------------
-print("Cargando modelo Phi-3 Mini en RAM…")
-llm = Llama(
-    model_path=MODEL_PATH,
-    n_ctx=4096,
-    n_threads=6,
-    verbose=False,
 )
-print("Modelo cargado correctamente.")
-# ---------------------------------------------------------
-# 3. Entrada del usuario
-# ---------------------------------------------------------
-class ChatRequest(BaseModel):
-    prompt: str
-# ---------------------------------------------------------
-# 4. Endpoint principal tipo ChatGPT
-# ---------------------------------------------------------
-@app.post("/chat")
-def chat(req: ChatRequest):
-    prompt = f"""Eres un asistente para una app de himnos y Biblia.
-Responde de forma clara, breve y espiritual.
-Usuario: {req.prompt}
-Asistente:"""
     output = llm(
-        prompt,
-        max_tokens=256,
-        temperature=0.6,
-        top_p=0.95,
-        stop=["Usuario:", "Asistente:"]
     )
-    text = output["choices"][0]["text"].strip()
-    return {"respuesta": text}

+ifrom fastapi import FastAPI
+from fastapi.middleware.cors import CORSMiddleware
 from huggingface_hub import hf_hub_download
+from llama_cpp import Llama
+import json
 app = FastAPI()
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_methods=["*"],
+    allow_headers=["*"],
 )
+# --------- Cargar modelo GGUF en RAM ---------
+print("Descargando modelo a RAM...")
+model_path = hf_hub_download(
+    repo_id="second-state/Gemma-2B-Instruct-GGUF",
+    filename="Gemma-2B-Instruct-Q4_K_M.gguf"
+)
+print("Cargando modelo...")
+llm = Llama(
+    model_path=model_path,
+    n_ctx=2000,
+    n_threads=4,
+    use_mlock=True
+)
+# --------- Cargar himnos.jsonl ---------
+print("Cargando himnos.jsonl...")
+HIMNOS = []
+with open("himnos.jsonl", "r", encoding="utf-8") as f:
+    for line in f:
+        HIMNOS.append(json.loads(line))
+# ============ ENDPOINT PRINCIPAL =============
+@app.post("/predict")
+def generar_respuesta(request: dict):
+    prompt_usuario = request.get("prompt", "")
+    # Pasar al modelo
     output = llm(
+        f"Responde de forma breve y clara al usuario: {prompt_usuario}",
+        max_tokens=200
     )
+    texto = output["choices"][0]["text"]
+    # Calcular relevancia simple (sin embeddings)
+    resultados = []
+    for h in HIMNOS:
+        titulo = h["titulo"].lower()
+        texto_prompt = prompt_usuario.lower()
+        # coincidencia básica
+        puntos = 0
+        for palabra in texto_prompt.split():
+            if palabra in titulo:
+                puntos += 1
+        resultados.append({
+            "id": h["id"],
+            "titulo": h["titulo"],
+            "relacion": puntos
+        })
+    # ordenar por relación
+    resultados = sorted(resultados, key=lambda x: -x["relacion"])[:7]
+    return {
+        "respuesta": texto,
+        "recomendados": resultados
+    }