2022-03-:采样介绍
假设我们有一个多分类任务或多标签分类任务,给定训练集 Ti))。
我们想学习一个通用函数 y 的关系,比如 ,使用上下文来预测下一个单词的概率。
使用或回归等完整的训练方法需要为每个训练数据计算所有类 |L| 很大,训练会很费时间。
“ ”训练方法对每个训练数据 Si ∈ L 包括:
Ci=Ti∪Si
, Si’>Ti, 也可能不依赖。
F(x,y)可以用神经网络计算来表示(也就是里面常用的)
各种样品在
在:
对比
在使用的时候,我们有时会纠结选择什么样的损失函数比较好,这和表达形式有一点区别,但也不是很大,而且对于普通的也可以进行多分类任务,和有什么区别?
就我所能想到的,使用和最大的区别在于类别的排他性。在分类任务中,我们一般选择单个标签的分类,因为它是排他性的。说白了,需要的是一个类别概率分布,这个分布应该服从多项式分布(即多项式)。我们的训练是让结果尽可能接近这个概率分布,并不是说不能进行多点。事实上,它支持多个类别,并且它的参数不限于只使用一个类别。,在使用多分类时,以第二类为例,我们可以将真实类的对应位置设置为0.5,0.5,并且训练使文本尽可能地倾向于这种分布。在测试阶段,可以选择计算概率最高的两个类作为类别标签。从这个角度来说,使用multi-score其实类似于计算文本的主题分布。
但是对于公式n的二元分类问题,这和有本质的区别。
提供以下两种方法
对比前面的讨论,我们可以从上图的loss的方法得知,tf.nn. 使用损失和 tf.nn。使用损失。其实两者的区别主要就在这里,使用 loss 训练yi的本质是是否是标签,以及tf.nn。最大化标签上的分布概率。
在我个人看来,多标签多类分类任务最好用多标签单类分类任务。在采样中,最好使用 tf.nn。训练 cbow 模型和 tf.nn。训练 skip-gram 更好。
———————本文来自CSDN博客,全文地址请点击:
分类:
技术要点:
相关文章:
暂无评论内容