refactor: Simplify video and audio segment handling in ShotRS2VPipeline by removing padding logic

GACLove · GACLove · commit 7bc7940a89b2 · 2026-04-01T21:49:57.000+08:00
diff --git a/lightx2v/shot_runner/rs2v_infer.py b/lightx2v/shot_runner/rs2v_infer.py
@@ -213,10 +213,9 @@ def load_audio(audio_path, target_sr):
                 video_seg = gen_clip_video[:, :, :segment_actual_video_frames]
                 audio_seg = audio_clip[:, : segment_actual_video_frames * audio_per_frame].sum(dim=0)
             else:
-                video_pad_len = pad_len // audio_per_frame
-                audio_pad_len = video_pad_len * audio_per_frame
-                video_seg = gen_clip_video[:, :, : gen_clip_video.shape[2] - video_pad_len]
-                audio_seg = audio_clip[:, : audio_clip.shape[1] - audio_pad_len].sum(dim=0)
+                video_seg = gen_clip_video
+                audio_seg = audio_clip.sum(dim=0)
+
             clip_input_info.overlap_latent = gen_latents[:, -1:]
 
             if clip_input_info.return_result_tensor or not clip_input_info.stream_save_video: