Google发布了一个称为,由开放领域的表格到文字(Table-To-Text)生成数据组成,包含来源的表格数据,以及总结表格数据的句子配对,另外,还有可用来评估模型幻觉(Hallucination)的文字生成任务。ToTTo拥有,个训练样本,以及7,个用於开发和测试的样本,Google提到,由於其标注的高精确性,该数据集很适合用来作为,高精确文字生成研究的基准。
在过去几年,自然语言生成研究已经有巨大的进步,但Google提到,尽管神经系统已经可以产生顺畅流利的文字,但是仍然会产生可理解,但是并非忠於(Faithful)来源数据的文字,这种情况被称之为幻觉,Google举例,像是神经基准模型总结比利时足球运动员ConstantVandenStock,在维基百科的条目信息框,总会错误总结ConstantVandenStock是位美国花样滑冰运动员。模型产生幻觉的可能性,使得有高准确性要求的应用,无法使用自然语言生成系统。
透过评估生成的文字是否忠实呈现来源内容,可以缓解这个问题,不过这个评估过程有其困难性,幸运的是,诸如表格等结构化来源内容的评估,通常会比较容易,而且结构化数据,还可以用来测试模型在因果以及数字的推断能力。
但Google表示,现有的大规模结构化数据集通常存在杂讯,也就是参照的句子,无法完全由表格数据推断出来,进而使得在模型开发中,难以量测幻觉。
因此Google制作了ToTTo数据集,除了包含表格到文字数据对之外,还添加一系列受控的生成任务,该任务会提供维基百科表格,以及一组选定的数据格,作为生成总结这些数据格句子的材料,这些任务存在多种挑战,包括数值推论、开放领域词汇以及多样的表格结构等。
ToTTo数据集使用了一种特别的数据标注方法,以产生没有杂讯的数据集,Google提到,要从表格数据中,获得自然又乾净的目标句子,是一件困难的工作,诸如Wikibio和RotoWire之类的数据集,其配对表格和文字的过程,总会出现许多杂讯,而这让研究人员难以区分,究竟幻觉是由数据杂讯造成的,还是模型本身缺陷造成的。
而且即便注释者从头开始编写句子,也会因为要忠於表格数据,而使得最後结果缺乏结构和样式的多样性,为了解决这些问题,ToTTo使用新颖的数据注释策略,Google要求注释者分阶段修改现有维基百科的句子,而这个方式让句子既乾净又自然,且还能包含有趣且多变化的语言特性。
Google使用目前最先进的三个模型,产生了一些基准结果,实验结果显示,BERT-to-BERT模型在BLEU与PARENT两个指针,表现的比PointerGenerator和Puduppullyetal.模型更好,但这3个模型,在研究人员另外准备的挑战子集上,性能表现皆不好,Google表示,因为挑战子集饱含领域外样本,对於3个模型都更具挑战性。
但这些结果并不足以评估文字生成系统的幻觉,为了更好地了解幻觉,研究人员假设内容上的不一致,都是幻觉造成,并手动评估最佳表现基准,以确定句子忠於来源表格内容的程度,而结果显示,BERT-to-BERT较人类专家,多出约20%的幻觉。
基准测试显示,即便是现在最先进的模型,也难以解决幻觉、数值推论以及稀有主题等问题,而且即便模型输出正确,但是信息也不如参考信息丰富。透过提供这些基准测试,Google说明ToTTo是可用於建模研究,并且发展模型评估指针的数据集。
转载请注明:http://www.0431gb208.com/sjszlff/4139.html