← 一覧へ戻る

略語

DPO

ai

正式名称

Direct Preference Optimization

日本語説明

報酬モデルを介さず嗜好データから直接最適化する手法です。

作成: 2026-04-26 10:52:16
更新: 2026-04-26 14:32:02