略語 PPO ☆ お気に入りに追加 ai 正式名称 Proximal Policy Optimization 日本語説明 大きな方策更新を避ける安定した強化学習手法です。 作成: 2026-04-26 10:52:16 更新: 2026-04-26 14:32:02