论文笔记 – GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

技术分享 4年前 (2022-11-07) 0 999+

Analysis

Coreset 是带有权重的数据子集，目的是在某个方面模拟完整数据的表现（例如损失函数的梯度，既可以是在训练数据上的损失，也可以是在验证数据上的损失）；

给出优化目标的定义：

$w^t$ 是 t 轮得到的 coreset 权重，$X_t$ 是 t 轮得到的 coreset，$L$ 既可以是在训练数据上的损失，也可以是在验证数据上的损失，$L_T$ 是在 coreset 上的损失函数，$theta_t$ 是 t 轮得到模型参数；

最小化 ERR 来使 Coreset 最好地模拟损失函数（训练集或验证集）的梯度。

将其转化为次模函数：

论文笔记 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

之后可以用贪心算法快速解决。

发表评论

评论已关闭。

当前内容话题

上一页：疫情可视化(后续)

下一页：第一百零五篇:变量的原始值和引用值