<论文拾萃> Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization

    2024-11-29

    本论文于2023年发表于计算机顶级会议 KDD 。营销优化对于在线互联网平台的用户增长起着重要作用。现有的研究通常将这个问题表述为预算分配问题,并利用两个完全解耦的阶段,即机器学习(ML)和运筹优化(OR)来解决。然而,ML阶段的学习目标没有考虑下游OR阶段的优化任务,这导致ML阶段模型的预测精度可能与决策质量不呈正相关。因此,降低模型预估误差不一定提升优化任务的决策...

    Read More

    <读书笔记> 强化学习:(4)时序差分算法

    2024-05-23

    该节内容摘自于《动手学强化学习》第5章 时序差分算法。


    算法简介

    前面介绍的动态规划算法要求马尔可夫决策过程是已知的,即要求与智能体交互的环境是完全已知的(例如迷宫或者给定规则的网格世界)。在此条件下,智能体其实并不需要和环境真正交互来采样数据,直接用动态规划算法就可以解出最优价值或策略。这就好比有监督学习任务,如...

    Read More

    <读书笔记> 强化学习:(1)多臂老虎机问题

    2024-05-23

    该节内容摘自于《动手学强化学习》第2章 多臂老虎机问题。


    1. 问题介绍

    在多臂老虎机(MAB)问题中,有一个拥有$K$根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布$R$。我们每次拉动其中一个拉杆,就可以从该拉杆对应的奖励概率分布中获得一个奖励$r$。我们在各根拉杆的奖励概率分布位置的情况下,从头...

    Read More
    View: User: