huggingface · kashif · Oct 15, 2024 · Oct 15, 2024
diff --git a/tests/test_nash_md_trainer.py b/tests/test_nash_md_trainer.py
@@ -76,6 +76,7 @@ def test_training_with_peft(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")
@@ -105,6 +106,7 @@ def test_training_with_peft_and_ref_model(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")

diff --git a/tests/test_online_dpo_trainer.py b/tests/test_online_dpo_trainer.py
@@ -70,6 +70,7 @@ def test_training_with_ref_model(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")
@@ -118,6 +119,7 @@ def test_training_with_peft(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")

diff --git a/tests/test_xpo_trainer.py b/tests/test_xpo_trainer.py
@@ -47,6 +47,7 @@ def test_xpo_trainer_training(self, config_name):
                 gradient_accumulation_steps=1,
                 learning_rate=9e-1,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", config_name)
@@ -76,6 +77,7 @@ def test_training_with_peft(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")