Commonsense MCQA

Commonsense MCQA¶

This notebook provides a walkthrough of building a benchmark for steering improved performance on the CommonsenseQA problem set. The benchmark will compare three steering pipelines: the unsteered behavior (baseline model), few shot steering, and steering via a LoRA adapter.

For convenience, change the current directory to the notebook if necessary:

In [1]:

Copied!

import os
os.chdir("./notebooks/benchmarks/commonsense_mcqa/")
import os
os.chdir("./notebooks/benchmarks/commonsense_mcqa/")

Building the use case¶

The use case of interest has already been constructed via the use case tutorial and is available at aisteer360/evaluation/use_cases/commonsense_mcqa/use_case.py. It is initialized as follows:

In [ ]:

Copied!





from aisteer360.evaluation.use_cases.commonsense_mcqa.use_case import CommonsenseMCQA
from aisteer360.evaluation.metrics.custom.commonsense_mcqa.mcqa_accuracy import MCQAAccuracy
from aisteer360.evaluation.metrics.custom.commonsense_mcqa.mcqa_positional_bias import MCQAPositionalBias

commonsense_mcqa = CommonsenseMCQA(
    evaluation_data="./data/evaluation_qa.jsonl",
    evaluation_metrics=[
        MCQAAccuracy(),
        MCQAPositionalBias(),
    ],
    num_shuffling_runs=20,
    num_samples=50  # optional
)
from aisteer360.evaluation.use_cases.commonsense_mcqa.use_case import CommonsenseMCQA
from aisteer360.evaluation.metrics.custom.commonsense_mcqa.mcqa_accuracy import MCQAAccuracy
from aisteer360.evaluation.metrics.custom.commonsense_mcqa.mcqa_positional_bias import MCQAPositionalBias

commonsense_mcqa = CommonsenseMCQA(
    evaluation_data="./data/evaluation_qa.jsonl",
    evaluation_metrics=[
        MCQAAccuracy(),
        MCQAPositionalBias(),
    ],
    num_shuffling_runs=20,
    num_samples=50  # optional
)

/dccstor/principled_ai/users/erikmiehling/AISteer360/.venv/lib/python3.11/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html
  from .autonotebook import tqdm as notebook_tqdm

Two custom metrics have been created for the use case: MCQAAccuracy which measures the accuracy statistics of each question (across trials), and MCQAPositionalBias which measures the positional bias (via deviation from the uniform distribution across runs). To facilitate computation of these statistics, the use case accepts a keyword argument num_shuffling_runs dictating how many times each question should be presented to the (steered) model under a randomized ordering of the choices. The num_samples parameter dictates how many entries from evaluation_data are used during benchmarking.

Defining the controls¶

The benchmark aims to compare two controls using common steering data.

In [3]:

Copied!

import json

steering_data_path = "data/steer_qa.jsonl"

with open(steering_data_path, "r") as f:
    steering_data = [json.loads(line) for line in f]

steering_data[0]
import json

steering_data_path = "data/steer_qa.jsonl"

with open(steering_data_path, "r") as f:
    steering_data = [json.loads(line) for line in f]

steering_data[0]

Out[3]:

{'id': '01beaf20-82aa-40b0-8b08-ee08b94e6666',
 'question': 'The spirit ascended to the after life, so what was it leaving?',
 'answer_chosen': 'human being',
 'answer_rejected': 'cemetary'}

The steering data consists of triples (question, answer_chosen, answer_rejected) extracted from the CommonsenseQA dataset where answer_chosen is the ground-truth answer and answer_rejected is a randomly selected incorrect answer. Both controls (FewShot and DPO) are based on the same steering data.

Defining the few shot control¶

The FewShot control requires specification of example pools. As shown below, each positive example is given by the pair (question,answer_chosen) whereas each negative example is given by the pair (question,answer_rejected).

In [4]:

Copied!





positive_pool = []
negative_pool = []
for row in steering_data:
    positive_pool.append({
        "question": row["question"],
        "answer": row["answer_chosen"]
    })
    negative_pool.append({
        "question": row["question"],
        "answer": row["answer_rejected"]
    })
positive_pool = []
negative_pool = []
for row in steering_data:
    positive_pool.append({
        "question": row["question"],
        "answer": row["answer_chosen"]
    })
    negative_pool.append({
        "question": row["question"],
        "answer": row["answer_rejected"]
    })

These pools are then passed in to the FewShot class upon instantiation, along with the name of the example selector (how examples are drawn from the pools; defaults to random), and the counts for how many positive and negative examples the selector should draw from the pool.

In [5]:

Copied!





from aisteer360.algorithms.input_control.few_shot.control import FewShot

few_shot = FewShot(
    selector_name="random",
    positive_example_pool=positive_pool,
    negative_example_pool=negative_pool,
    k_positive=25,
    k_negative=25
)
from aisteer360.algorithms.input_control.few_shot.control import FewShot

few_shot = FewShot(
    selector_name="random",
    positive_example_pool=positive_pool,
    negative_example_pool=negative_pool,
    k_positive=25,
    k_negative=25
)

Defining the DPO (with LoRA) control¶

In [6]:

Copied!





from datasets import Dataset
from peft import PeftType
from aisteer360.algorithms.structural_control.wrappers.trl.dpotrainer.control import DPO


train_examples = []
for row in steering_data:
    train_examples.append({
        "prompt": row['question'],
        "chosen": row['answer_chosen'],  
        "rejected": row['answer_rejected']
    })
train_ds = Dataset.from_list(train_examples)

# instantiate dpo control
dpo_lora = DPO(
    train_dataset=train_ds,

    # DPO / TRL config
    output_dir="trl_models/Qwen2.5-0.5B-DPO-Lora-Steer",
    per_device_train_batch_size=4,
    num_train_epochs=2,
    learning_rate=1e-6,
    beta=0.1,
    loss_type="sigmoid", 
    max_length=1024,
    max_prompt_length=512,
    disable_dropout=True,
    logging_steps=100,
    save_strategy="no",
    report_to="none",
    seed=123,

    # LoRA config
    use_peft=True,
    peft_type=PeftType.LORA,
    r=16,
    lora_alpha=16,
    target_modules=["q_proj", "v_proj"],
    adapter_name="dpo",
    merge_lora_after_train=False,
)
from datasets import Dataset
from peft import PeftType
from aisteer360.algorithms.structural_control.wrappers.trl.dpotrainer.control import DPO


train_examples = []
for row in steering_data:
    train_examples.append({
        "prompt": row['question'],
        "chosen": row['answer_chosen'],  
        "rejected": row['answer_rejected']
    })
train_ds = Dataset.from_list(train_examples)

# instantiate dpo control
dpo_lora = DPO(
    train_dataset=train_ds,

    # DPO / TRL config
    output_dir="trl_models/Qwen2.5-0.5B-DPO-Lora-Steer",
    per_device_train_batch_size=4,
    num_train_epochs=2,
    learning_rate=1e-6,
    beta=0.1,
    loss_type="sigmoid", 
    max_length=1024,
    max_prompt_length=512,
    disable_dropout=True,
    logging_steps=100,
    save_strategy="no",
    report_to="none",
    seed=123,

    # LoRA config
    use_peft=True,
    peft_type=PeftType.LORA,
    r=16,
    lora_alpha=16,
    target_modules=["q_proj", "v_proj"],
    adapter_name="dpo",
    merge_lora_after_train=False,
)

Instantiating (and running) the benchmark¶

Given the controls, the benchmark can now be run on any control pipelines, i.e., sequence of controls. In the following benchmark, we compare the unsteered baseline behavior (no control) with few-shot and DPO (with LoRA).

In [7]:

Copied!





import transformers
from aisteer360.evaluation.benchmark import Benchmark
transformers.logging.set_verbosity_error()

benchmark = Benchmark(
    use_case=commonsense_mcqa,
    base_model_name_or_path="Qwen/Qwen2.5-1.5B-Instruct",
    steering_pipelines={
        "baseline": [],  # no steering
        "few_shot": [few_shot],
        "dpo_lora": [dpo_lora],
    },
    gen_kwargs={
        "max_new_tokens": 300,
        "do_sample": True,
        "temperature": 0.7,
    },
    device_map="auto"
)

# run and plot/export
profiles = benchmark.run()
import transformers
from aisteer360.evaluation.benchmark import Benchmark
transformers.logging.set_verbosity_error()

benchmark = Benchmark(
    use_case=commonsense_mcqa,
    base_model_name_or_path="Qwen/Qwen2.5-1.5B-Instruct",
    steering_pipelines={
        "baseline": [],  # no steering
        "few_shot": [few_shot],
        "dpo_lora": [dpo_lora],
    },
    gen_kwargs={
        "max_new_tokens": 300,
        "do_sample": True,
        "temperature": 0.7,
    },
    device_map="auto"
)

# run and plot/export
profiles = benchmark.run()

Running pipeline: baseline...

done.
Running pipeline: few_shot...
done.
Running pipeline: dpo_lora...

Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4871/4871 [00:00<00:00, 34923.08 examples/s]
Extracting prompt in train dataset: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4871/4871 [00:00<00:00, 20580.88 examples/s]
Applying chat template to train dataset: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4871/4871 [00:00<00:00, 23812.58 examples/s]
Tokenizing train dataset: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4871/4871 [00:01<00:00, 4050.16 examples/s]
Train dataset reference log probs: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1218/1218 [06:10<00:00,  3.29it/s]

{'loss': 0.693, 'grad_norm': 0.6648241281509399, 'learning_rate': 9.5935960591133e-07, 'rewards/chosen': 0.0010058283805847168, 'rewards/rejected': 0.0007286262698471546, 'rewards/accuracies': 0.6625000238418579, 'rewards/margins': 0.00027720213984139264, 'logps/chosen': -42.759090423583984, 'logps/rejected': -44.94538879394531, 'logits/chosen': 0.7523290514945984, 'logits/rejected': 0.834088921546936, 'epoch': 0.08210180623973727}
{'loss': 0.6928, 'grad_norm': 0.4628775417804718, 'learning_rate': 9.183087027914613e-07, 'rewards/chosen': 0.002631545066833496, 'rewards/rejected': 0.0019237594678997993, 'rewards/accuracies': 0.6600000262260437, 'rewards/margins': 0.0007077856571413577, 'logps/chosen': -42.33175277709961, 'logps/rejected': -45.524879455566406, 'logits/chosen': 0.7863448858261108, 'logits/rejected': 0.8765722513198853, 'epoch': 0.16420361247947454}
{'loss': 0.6925, 'grad_norm': 0.5489557385444641, 'learning_rate': 8.772577996715927e-07, 'rewards/chosen': 0.0041033243760466576, 'rewards/rejected': 0.0027940142899751663, 'rewards/accuracies': 0.675000011920929, 'rewards/margins': 0.0013093105517327785, 'logps/chosen': -42.745914459228516, 'logps/rejected': -45.335941314697266, 'logits/chosen': 0.7480616569519043, 'logits/rejected': 0.8393663167953491, 'epoch': 0.24630541871921183}
{'loss': 0.692, 'grad_norm': 0.47377896308898926, 'learning_rate': 8.362068965517241e-07, 'rewards/chosen': 0.005977933295071125, 'rewards/rejected': 0.0036758591886609793, 'rewards/accuracies': 0.7300000190734863, 'rewards/margins': 0.002302073407918215, 'logps/chosen': -43.012393951416016, 'logps/rejected': -45.304840087890625, 'logits/chosen': 0.7741045951843262, 'logits/rejected': 0.8472213745117188, 'epoch': 0.3284072249589491}
{'loss': 0.6917, 'grad_norm': 0.47278571128845215, 'learning_rate': 7.951559934318555e-07, 'rewards/chosen': 0.0084282411262393, 'rewards/rejected': 0.005498616490513086, 'rewards/accuracies': 0.7049999833106995, 'rewards/margins': 0.0029296239372342825, 'logps/chosen': -43.48306655883789, 'logps/rejected': -45.49183654785156, 'logits/chosen': 0.7670758962631226, 'logits/rejected': 0.8997953534126282, 'epoch': 0.41050903119868637}
{'loss': 0.6917, 'grad_norm': 0.6925634145736694, 'learning_rate': 7.541050903119868e-07, 'rewards/chosen': 0.011465278454124928, 'rewards/rejected': 0.008514078333973885, 'rewards/accuracies': 0.6700000166893005, 'rewards/margins': 0.002951200818642974, 'logps/chosen': -42.595767974853516, 'logps/rejected': -45.062313079833984, 'logits/chosen': 0.7824586629867554, 'logits/rejected': 0.8503761291503906, 'epoch': 0.49261083743842365}
{'loss': 0.6909, 'grad_norm': 0.5386145114898682, 'learning_rate': 7.130541871921182e-07, 'rewards/chosen': 0.012993121519684792, 'rewards/rejected': 0.008419825695455074, 'rewards/accuracies': 0.7024999856948853, 'rewards/margins': 0.004573294892907143, 'logps/chosen': -42.233665466308594, 'logps/rejected': -45.438941955566406, 'logits/chosen': 0.8096867203712463, 'logits/rejected': 0.9143311977386475, 'epoch': 0.5747126436781609}
{'loss': 0.6902, 'grad_norm': 0.43791061639785767, 'learning_rate': 6.720032840722496e-07, 'rewards/chosen': 0.01671598106622696, 'rewards/rejected': 0.010702302679419518, 'rewards/accuracies': 0.7200000286102295, 'rewards/margins': 0.006013678386807442, 'logps/chosen': -42.73381805419922, 'logps/rejected': -44.888343811035156, 'logits/chosen': 0.7684237957000732, 'logits/rejected': 0.867933452129364, 'epoch': 0.6568144499178982}
{'loss': 0.69, 'grad_norm': 0.6175011396408081, 'learning_rate': 6.309523809523809e-07, 'rewards/chosen': 0.01982559636235237, 'rewards/rejected': 0.013565847650170326, 'rewards/accuracies': 0.6725000143051147, 'rewards/margins': 0.006259748712182045, 'logps/chosen': -42.175392150878906, 'logps/rejected': -44.86878967285156, 'logits/chosen': 0.8445912003517151, 'logits/rejected': 0.9276926517486572, 'epoch': 0.7389162561576355}
{'loss': 0.6898, 'grad_norm': 0.514676570892334, 'learning_rate': 5.899014778325123e-07, 'rewards/chosen': 0.02111973986029625, 'rewards/rejected': 0.01430493127554655, 'rewards/accuracies': 0.7049999833106995, 'rewards/margins': 0.0068148113787174225, 'logps/chosen': -42.1737060546875, 'logps/rejected': -44.91117858886719, 'logits/chosen': 0.7662437558174133, 'logits/rejected': 0.8812574744224548, 'epoch': 0.8210180623973727}
{'loss': 0.6888, 'grad_norm': 0.6890693306922913, 'learning_rate': 5.488505747126437e-07, 'rewards/chosen': 0.025342551991343498, 'rewards/rejected': 0.016608256846666336, 'rewards/accuracies': 0.7074999809265137, 'rewards/margins': 0.008734293282032013, 'logps/chosen': -42.54764175415039, 'logps/rejected': -44.76522445678711, 'logits/chosen': 0.7942400574684143, 'logits/rejected': 0.8823971748352051, 'epoch': 0.90311986863711}
{'loss': 0.6896, 'grad_norm': 0.627277135848999, 'learning_rate': 5.07799671592775e-07, 'rewards/chosen': 0.027079129591584206, 'rewards/rejected': 0.01984981819987297, 'rewards/accuracies': 0.6650000214576721, 'rewards/margins': 0.0072293090634047985, 'logps/chosen': -42.825687408447266, 'logps/rejected': -45.22184753417969, 'logits/chosen': 0.7787085175514221, 'logits/rejected': 0.9170675873756409, 'epoch': 0.9852216748768473}
{'loss': 0.6888, 'grad_norm': 0.6617122888565063, 'learning_rate': 4.667487684729064e-07, 'rewards/chosen': 0.02993975579738617, 'rewards/rejected': 0.021062051877379417, 'rewards/accuracies': 0.6733333468437195, 'rewards/margins': 0.008877703920006752, 'logps/chosen': -42.45391082763672, 'logps/rejected': -45.254417419433594, 'logits/chosen': 0.7845711708068848, 'logits/rejected': 0.8630729913711548, 'epoch': 1.0673234811165846}
{'loss': 0.688, 'grad_norm': 0.5238310694694519, 'learning_rate': 4.2569786535303777e-07, 'rewards/chosen': 0.031363800168037415, 'rewards/rejected': 0.020931020379066467, 'rewards/accuracies': 0.6949999928474426, 'rewards/margins': 0.010432782582938671, 'logps/chosen': -42.27934646606445, 'logps/rejected': -45.1035041809082, 'logits/chosen': 0.7828646302223206, 'logits/rejected': 0.9017710089683533, 'epoch': 1.1494252873563218}
{'loss': 0.6871, 'grad_norm': 1.5199154615402222, 'learning_rate': 3.846469622331691e-07, 'rewards/chosen': 0.03486918658018112, 'rewards/rejected': 0.022618308663368225, 'rewards/accuracies': 0.6825000047683716, 'rewards/margins': 0.012250878848135471, 'logps/chosen': -42.91840744018555, 'logps/rejected': -44.780921936035156, 'logits/chosen': 0.7681134939193726, 'logits/rejected': 0.852162778377533, 'epoch': 1.2315270935960592}
{'loss': 0.6877, 'grad_norm': 0.6272830367088318, 'learning_rate': 3.435960591133005e-07, 'rewards/chosen': 0.03366211801767349, 'rewards/rejected': 0.02251775935292244, 'rewards/accuracies': 0.6924999952316284, 'rewards/margins': 0.011144357733428478, 'logps/chosen': -42.751216888427734, 'logps/rejected': -45.057987213134766, 'logits/chosen': 0.7881015539169312, 'logits/rejected': 0.8767341375350952, 'epoch': 1.3136288998357963}
{'loss': 0.6869, 'grad_norm': 0.5608497858047485, 'learning_rate': 3.025451559934318e-07, 'rewards/chosen': 0.03561882674694061, 'rewards/rejected': 0.02301727794110775, 'rewards/accuracies': 0.6875, 'rewards/margins': 0.012601546943187714, 'logps/chosen': -42.40752410888672, 'logps/rejected': -45.15668487548828, 'logits/chosen': 0.805174708366394, 'logits/rejected': 0.8965483903884888, 'epoch': 1.3957307060755337}
{'loss': 0.6862, 'grad_norm': 0.6349468231201172, 'learning_rate': 2.614942528735632e-07, 'rewards/chosen': 0.040707677602767944, 'rewards/rejected': 0.026642082259058952, 'rewards/accuracies': 0.7250000238418579, 'rewards/margins': 0.014065596275031567, 'logps/chosen': -42.46854019165039, 'logps/rejected': -45.50773620605469, 'logits/chosen': 0.734036922454834, 'logits/rejected': 0.8413907885551453, 'epoch': 1.477832512315271}
{'loss': 0.6854, 'grad_norm': 0.5928728580474854, 'learning_rate': 2.2044334975369458e-07, 'rewards/chosen': 0.04561479389667511, 'rewards/rejected': 0.029854636639356613, 'rewards/accuracies': 0.7174999713897705, 'rewards/margins': 0.015760159119963646, 'logps/chosen': -42.01939010620117, 'logps/rejected': -44.582664489746094, 'logits/chosen': 0.761832058429718, 'logits/rejected': 0.8628367781639099, 'epoch': 1.5599343185550083}
{'loss': 0.6863, 'grad_norm': 0.5931399464607239, 'learning_rate': 1.7939244663382594e-07, 'rewards/chosen': 0.040784381330013275, 'rewards/rejected': 0.026741651818156242, 'rewards/accuracies': 0.7174999713897705, 'rewards/margins': 0.014042730443179607, 'logps/chosen': -42.282020568847656, 'logps/rejected': -45.19915008544922, 'logits/chosen': 0.8059659600257874, 'logits/rejected': 0.9063456654548645, 'epoch': 1.6420361247947455}
{'loss': 0.6878, 'grad_norm': 0.5778290033340454, 'learning_rate': 1.383415435139573e-07, 'rewards/chosen': 0.04094775766134262, 'rewards/rejected': 0.03010404109954834, 'rewards/accuracies': 0.675000011920929, 'rewards/margins': 0.01084371842443943, 'logps/chosen': -42.481632232666016, 'logps/rejected': -45.42205047607422, 'logits/chosen': 0.766684889793396, 'logits/rejected': 0.9213287234306335, 'epoch': 1.7241379310344827}
{'loss': 0.686, 'grad_norm': 0.5642423629760742, 'learning_rate': 9.729064039408867e-08, 'rewards/chosen': 0.04313197731971741, 'rewards/rejected': 0.028628842905163765, 'rewards/accuracies': 0.7200000286102295, 'rewards/margins': 0.014503137208521366, 'logps/chosen': -42.126949310302734, 'logps/rejected': -44.818172454833984, 'logits/chosen': 0.8048484325408936, 'logits/rejected': 0.8989449143409729, 'epoch': 1.80623973727422}
{'loss': 0.6872, 'grad_norm': 0.570733904838562, 'learning_rate': 5.623973727422003e-08, 'rewards/chosen': 0.045430850237607956, 'rewards/rejected': 0.03327929228544235, 'rewards/accuracies': 0.6800000071525574, 'rewards/margins': 0.012151556089520454, 'logps/chosen': -42.22317886352539, 'logps/rejected': -44.28239440917969, 'logits/chosen': 0.8217158317565918, 'logits/rejected': 0.8958502411842346, 'epoch': 1.8883415435139574}
{'loss': 0.6861, 'grad_norm': 0.610152542591095, 'learning_rate': 1.5188834154351394e-08, 'rewards/chosen': 0.046997904777526855, 'rewards/rejected': 0.03261708840727806, 'rewards/accuracies': 0.7049999833106995, 'rewards/margins': 0.01438081730157137, 'logps/chosen': -42.14603042602539, 'logps/rejected': -44.682167053222656, 'logits/chosen': 0.8310168385505676, 'logits/rejected': 0.9321029782295227, 'epoch': 1.9704433497536946}
{'train_runtime': 296.3387, 'train_samples_per_second': 32.875, 'train_steps_per_second': 8.22, 'train_loss': 0.688948426927839, 'epoch': 2.0}
done.

In [8]:

Copied!

benchmark.export(profiles, save_dir="./profiles/")
benchmark.export(profiles, save_dir="./profiles/")

Inspecting the profiles¶

Each control pipeline in the benchmark yields an evaluation profile. Each evaluation profile contains metric values as computed by the metrics passed in to the use case, in this case MCQAAccuracy and MCQAPositionalBias.

In [9]:

Copied!

import json
print(json.dumps(profiles['baseline']['evaluations'], indent=2))
import json
print(json.dumps(profiles['baseline']['evaluations'], indent=2))

{
  "MCQAAccuracy": {
    "trial_mean": 0.61,
    "trial_std": 0.49020713000019756,
    "question_mean": 0.6,
    "question_std": 0.5477225575051662
  },
  "MCQAPositionalBias": {
    "mean": 0.12000000000000002,
    "std": 0.1013903348450926
  }
}

In [10]:

Copied!

print(json.dumps(profiles['few_shot']['evaluations'], indent=2))
print(json.dumps(profiles['few_shot']['evaluations'], indent=2))

{
  "MCQAAccuracy": {
    "trial_mean": 0.93,
    "trial_std": 0.256432399976243,
    "question_mean": 1.0,
    "question_std": 0.0
  },
  "MCQAPositionalBias": {
    "mean": 0.023999999999999994,
    "std": 0.01788854381999832
  }
}

In [11]:

Copied!

print(json.dumps(profiles['dpo_lora']['evaluations'], indent=2))
print(json.dumps(profiles['dpo_lora']['evaluations'], indent=2))

{
  "MCQAAccuracy": {
    "trial_mean": 0.65,
    "trial_std": 0.47937248544110195,
    "question_mean": 0.8,
    "question_std": 0.44721359549995804
  },
  "MCQAPositionalBias": {
    "mean": 0.10800000000000001,
    "std": 0.1063954886261631
  }
}

We can see that FewShot (using 25 positive/negative examples) yields the best improvement over baseline. The DPO (with LoRA) control yields a marginal improvement over the baseline, likely because of the small (5k) steering dataset.