Support FLAC format

yqzhishen · yqzhishen · commit 66800d6e91f3 · 2026-01-08T15:54:35.000+08:00
diff --git a/preprocessing/acoustic_binarizer.py b/preprocessing/acoustic_binarizer.py
@@ -47,6 +47,7 @@
     'key_shift',
     'speed',
 ]
+WAV_CANDIDATE_EXTENSIONS = ['.wav', '.flac']
 
 pitch_extractor: BasePE = None
 energy_smooth: SinusoidalSmoothingConv1d = None
@@ -73,8 +74,19 @@ def load_meta_data(self, raw_data_dir: pathlib.Path, ds_id, spk, lang):
         with open(raw_data_dir / 'transcriptions.csv', 'r', encoding='utf-8') as f:
             for utterance_label in csv.DictReader(f):
                 item_name = utterance_label['name']
+                wav_fn = None
+                for ext in WAV_CANDIDATE_EXTENSIONS:
+                    candidate_fn = raw_data_dir / 'wavs' / f'{item_name}{ext}'
+                    if candidate_fn.exists():
+                        wav_fn = candidate_fn
+                        break
+                if wav_fn is None:
+                    raise FileNotFoundError(
+                        f'Waveform file not found for item \'{item_name}\'. '
+                        f'Candidate extensions: {WAV_CANDIDATE_EXTENSIONS}'
+                    )
                 temp_dict = {
-                    'wav_fn': str(raw_data_dir / 'wavs' / f'{item_name}.wav'),
+                    'wav_fn': str(wav_fn),
                     'spk_id': self.spk_map[spk],
                     'spk_name': spk,
                     'lang_seq': [
diff --git a/preprocessing/variance_binarizer.py b/preprocessing/variance_binarizer.py
@@ -49,6 +49,7 @@
     'voicing',  # frame-level RMS of harmonic parts (dB), float32[T_s,]
     'tension',  # frame-level tension (logit), float32[T_s,]
 ]
+WAV_CANDIDATE_EXTENSIONS = ['.wav', '.flac']
 DS_INDEX_SEP = '#'
 
 # These operators are used as global variables due to a PyTorch shared memory bug on Windows platforms.
@@ -129,13 +130,26 @@ def require(attr, optional=False):
                         raise ValueError(f'Missing required attribute {attr} of item \'{item_name}\'.')
                     return value
 
+                wav_fn = None
+                for ext in WAV_CANDIDATE_EXTENSIONS:
+                    candidate_fn = raw_data_dir / 'wavs' / f'{item_name}{ext}'
+                    if candidate_fn.exists():
+                        wav_fn = candidate_fn
+                        break
+                if wav_fn is None and not self.prefer_ds:
+                    raise FileNotFoundError(
+                        f'Waveform file not found for item \'{item_name}\'. '
+                        f'Candidate extensions: {WAV_CANDIDATE_EXTENSIONS}\n'
+                        f'If you are using DS files instead of waveform files, please set \'prefer_ds\' to true.'
+                    )
+
                 temp_dict = {
                     'ds_idx': item_idx,
                     'spk_id': self.spk_map[spk],
                     'spk_name': spk,
                     'language_id': self.lang_map[lang],
                     'language_name': lang,
-                    'wav_fn': str(raw_data_dir / 'wavs' / f'{item_name}.wav'),
+                    'wav_fn': str(wav_fn) if wav_fn is not None else None,
                     'lang_seq': [
                         (
                             self.lang_map[lang if '/' not in p else p.split('/', maxsplit=1)[0]]
@@ -288,10 +302,8 @@ def process_item(self, item_name, meta_data, binarization_args):
             processed_input['mel2ph'] = mel2ph.cpu().numpy()
 
         # Below: extract actual f0, convert to pitch and calculate delta pitch
-        if pathlib.Path(meta_data['wav_fn']).exists():
+        if meta_data['wav_fn'] is not None:
             waveform, _ = librosa.load(meta_data['wav_fn'], sr=hparams['audio_sample_rate'], mono=True)
-        elif not self.prefer_ds:
-            raise FileNotFoundError(meta_data['wav_fn'])
         else:
             waveform = None