sam-audio-webui

Runtime error

App Files Files Community

Peter Shi commited on 7 days ago

Commit

f4c6545

1 Parent(s): 8752ef6

fix: Fixed the issue in the `merge_chunks_with_crossfade` function handling one-dimensional audio blocks and blocks shorter than the overlap area, and removed redundant dimension expansion operations in `save_audio`.v

Browse files

Files changed (1) hide show

app.py +33 -12

app.py CHANGED Viewed

@@ -79,31 +79,51 @@ def split_audio_into_chunks(waveform, sample_rate, chunk_duration, overlap_durat
 def merge_chunks_with_crossfade(chunks, sample_rate, overlap_duration):
     """Merge audio chunks with crossfade on overlapping regions."""
     if len(chunks) == 1:
-        return chunks[0]
     overlap_samples = int(overlap_duration * sample_rate)
-    result = chunks[0]
-    for i in range(1, len(chunks)):
         prev_chunk = result
-        next_chunk = chunks[i]
         # Create fade curves
-        fade_out = torch.linspace(1.0, 0.0, overlap_samples).to(prev_chunk.device)
-        fade_in = torch.linspace(0.0, 1.0, overlap_samples).to(next_chunk.device)
         # Get overlapping regions
-        prev_overlap = prev_chunk[:, -overlap_samples:]
-        next_overlap = next_chunk[:, :overlap_samples]
         # Crossfade mix
         crossfaded = prev_overlap * fade_out + next_overlap * fade_in
         # Concatenate: non-overlap of prev + crossfaded + non-overlap of next
         result = torch.cat([
-            prev_chunk[:, :-overlap_samples],
             crossfaded,
-            next_chunk[:, overlap_samples:]
         ], dim=1)
     return result
@@ -168,8 +188,9 @@ def separate_audio(model_name, file_path, text_prompt, chunk_duration=DEFAULT_CH
             residual_merged = merge_chunks_with_crossfade(residual_chunks, sample_rate, OVERLAP_DURATION)
             progress(0.95, desc="Saving results...")
-            target_path = save_audio(target_merged.unsqueeze(0), sample_rate)
-            residual_path = save_audio(residual_merged.unsqueeze(0), sample_rate)
             progress(1.0, desc="Done!")
             return target_path, residual_path, f"✅ Isolated '{text_prompt}' using {model_name} ({num_chunks} chunks)"

 def merge_chunks_with_crossfade(chunks, sample_rate, overlap_duration):
     """Merge audio chunks with crossfade on overlapping regions."""
     if len(chunks) == 1:
+        chunk = chunks[0]
+        # Ensure 2D tensor
+        if chunk.dim() == 1:
+            chunk = chunk.unsqueeze(0)
+        return chunk
     overlap_samples = int(overlap_duration * sample_rate)
+    # Ensure all chunks are 2D [channels, samples]
+    processed_chunks = []
+    for chunk in chunks:
+        if chunk.dim() == 1:
+            chunk = chunk.unsqueeze(0)
+        processed_chunks.append(chunk)
+    result = processed_chunks[0]
+    for i in range(1, len(processed_chunks)):
         prev_chunk = result
+        next_chunk = processed_chunks[i]
+        # Handle case where chunks are shorter than overlap
+        actual_overlap = min(overlap_samples, prev_chunk.shape[1], next_chunk.shape[1])
+        if actual_overlap <= 0:
+            # No overlap possible, just concatenate
+            result = torch.cat([prev_chunk, next_chunk], dim=1)
+            continue
         # Create fade curves
+        fade_out = torch.linspace(1.0, 0.0, actual_overlap).to(prev_chunk.device)
+        fade_in = torch.linspace(0.0, 1.0, actual_overlap).to(next_chunk.device)
         # Get overlapping regions
+        prev_overlap = prev_chunk[:, -actual_overlap:]
+        next_overlap = next_chunk[:, :actual_overlap]
         # Crossfade mix
         crossfaded = prev_overlap * fade_out + next_overlap * fade_in
         # Concatenate: non-overlap of prev + crossfaded + non-overlap of next
         result = torch.cat([
+            prev_chunk[:, :-actual_overlap],
             crossfaded,
+            next_chunk[:, actual_overlap:]
         ], dim=1)
     return result
             residual_merged = merge_chunks_with_crossfade(residual_chunks, sample_rate, OVERLAP_DURATION)
             progress(0.95, desc="Saving results...")
+            # merged tensors are already 2D [channels, samples]
+            target_path = save_audio(target_merged, sample_rate)
+            residual_path = save_audio(residual_merged, sample_rate)
             progress(1.0, desc="Done!")
             return target_path, residual_path, f"✅ Isolated '{text_prompt}' using {model_name} ({num_chunks} chunks)"