From 4dafbe595a44a7b4490ecb1bb608403db5e6ef05 Mon Sep 17 00:00:00 2001
From: Kashif Rasul <kashif.rasul@gmail.com>
Date: Tue, 15 Oct 2024 09:53:38 +0200
Subject: [PATCH 1/2] failing tests

---
 tests/test_online_dpo_trainer.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/tests/test_online_dpo_trainer.py b/tests/test_online_dpo_trainer.py
index acabbbafa4..6d6bca14ed 100644
--- a/tests/test_online_dpo_trainer.py
+++ b/tests/test_online_dpo_trainer.py
@@ -70,6 +70,7 @@ def test_training_with_ref_model(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")
@@ -118,6 +119,7 @@ def test_training_with_peft(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")

From 659224823ac7a86a378ad5fb4212c7a9fb23a2e3 Mon Sep 17 00:00:00 2001
From: Kashif Rasul <kashif.rasul@gmail.com>
Date: Tue, 15 Oct 2024 09:56:15 +0200
Subject: [PATCH 2/2] more failing tests

---
 tests/test_nash_md_trainer.py | 2 ++
 tests/test_xpo_trainer.py     | 2 ++
 2 files changed, 4 insertions(+)

diff --git a/tests/test_nash_md_trainer.py b/tests/test_nash_md_trainer.py
index aff4d9e2cd..43c246c8f7 100644
--- a/tests/test_nash_md_trainer.py
+++ b/tests/test_nash_md_trainer.py
@@ -76,6 +76,7 @@ def test_training_with_peft(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")
@@ -105,6 +106,7 @@ def test_training_with_peft_and_ref_model(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")
diff --git a/tests/test_xpo_trainer.py b/tests/test_xpo_trainer.py
index 734d30ba4d..fd770426b5 100644
--- a/tests/test_xpo_trainer.py
+++ b/tests/test_xpo_trainer.py
@@ -47,6 +47,7 @@ def test_xpo_trainer_training(self, config_name):
                 gradient_accumulation_steps=1,
                 learning_rate=9e-1,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", config_name)
@@ -76,6 +77,7 @@ def test_training_with_peft(self):
                 max_steps=3,
                 learning_rate=5.0e-7,
                 eval_strategy="steps",
+                eval_steps=1,
                 report_to="none",
             )
             dummy_dataset = load_dataset("trl-internal-testing/zen", "standard_prompt_only")