论文笔记–Selective Annotation Makes Language Models Better Few-Shot Learners

admin • 2023-03-27 18:35 • 人工智能

1. 文章简介

标题：Selective Annotation Makes Language Models Better Few-Shot Learners
作者：Hongjin Su, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang, Jiayi Xin, Rui Zhang, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu
日期：2022/09/05
期刊：arxiv preprint

文章从样本池中筛选数据集，对选中的样本进行标注，再通过prompt retrieval进行训练，整体架构如下：

实验证明，通过对选中的少量样本进行标注，得到的模型效果可以追平甚至超过对所有样本进行标注：

其中Vote-k为本文所述的方法。

文章设计了Vote-k方法进行样本选择（共计选择

$M$ 个样本），并对选择的样本进行标注。Vote-k方法分为以下步骤：

使用Sentence-BERT计算每个样本的向量表示，其中每个句子的向量表示采用的是句子中所有输入单词表示的平均值（BERT中使用的是<CLS>向量）；
计算向量表示两两之间的cosine similarity，得到有向图
将所有顶点分成两个集合 $sum_{vin{v|(v,u)in E, v in mathcal{U}}} s(v), s(v) = rho^{-|{lin mathcal{L} | (v, l) in E}|}end{equation} score(u)=v∈{v∣(v,u)∈E,v∈U}∑s(v),s(v)=ρ−∣{l∈L∣(v,l)∈E}∣，上述公式表示每个未被选择的向量对分值可由与它相邻的所有向量的 s ( v ) s(v) s(v)之和表示，其中 s ( v ) s(v) s(v)代表的是一个以 v v v相邻节点中在集合 L mathcal{L} L的元素数量作为参数的函数， v v v的邻居中越多属于 L mathcal{L} L（即与 v v v相邻的节点中越多元素被选中），则 s ( v ) s(v) s(v)越少，从而 v v v越不容易被选中。此公式旨在使得选中的元素尽可能不相邻，从而增加多样性(diversity)；$
迭代选中
使用
将所有

将上述集合

mathcal{L}

$L$ 人工标注，每次预测的时候进行prompt retrieval：计算所有标注样本和测试样本的cosine similarity，选定和测试样本最为相似的一些标注样本进行In-Context Learning就可以啦！

文章通过选择少量标注样本，可以持平大规模标注样本或随机标注样本得到模型的表现能力。尤其是文章提到了Fast Vote-k方法，可以避免使用BERT编码每个句子，直接得到标注样本，性能略差于Vote-k但由于文章测试的其它模型，适合初学者使用，大幅降低NLP成本。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

NLP 人工智能自然语言处理语言模型

二维码

基于chatGPT设计卷积神经网络

Ubuntu22.04安装AMD显卡驱动和pytorch

下一篇>>