毕业论文
您现在的位置: 比利时 >> 比利时图片 >> 正文 >> 正文

Google开源ToTTo数据集,你的模

来源:比利时 时间:2023/4/5
北京中科医院爆光 http://m.39.net/pf/a_5154126.html

近日,Google研究人员提出一个大型从表转换到文本的英文数据集,已经在Git上开源。该数据集不仅提供了一个可以受控的句子生成任务,还提供了一个基于迭代语句修订的数据注释过程。实验结果证明,ToTTo可以作为有用且高效的数据集,用来帮助其他研究者建模研究,以及开发可以更好地检测模型改进的评估指标。

在过去的几年里,自然语言生成(用于文本摘要等任务)的研究取得了巨大的进展。

然而,尽管达到了高水平的流畅性,神经系统仍然容易产生「幻觉」(即产生的文本尽管可以被理解,但是含义并不忠实于源文本),这使得这些系统不能用于许多需要高准确性的应用。

我们可以举例说明这个问题:

这是一个来自Wikibio数据集的例子,其中,负责总结比利时足球运动员ConstantVandenStock的维基信息框条目的神经基线模型,在经过分析之后,错误地得出了他是一个美国花样滑冰运动员的结论,如下图:

虽然评估生成的文本与源内容的真实性相比,可能会具有一定的不一致。

但当源内容是结构化的(例如,以表格格式)时,在含义上保持一致往往会更容易。

此外,结构化数据还可以测试模型的推理和数值推理能力。

这么听上去,结构化数据是蛮好的,对不对?

然而,现有的大规模结构化数据集往往有噪声(即引用的句子不能从表格数据中完全推断出来),这使得研究人员在模型开发中对「幻觉」的测量并不可靠。

针对这一问题,Google的研究人员提出了他们的解决方案:

在《ToTTo:一个受控的表到文本生成数据集》(ToTTo:AControlledTable-to-TextGenerationDataset)中,研究人员提出了一个开放域的表到文本生成数据集。

该数据集是由一种新的注释过程(通过句子修改)以及一个可用于评估模型「幻觉」的受控文本生成任务生成的。

在接下来的介绍中,我们将「表到文本」称为ToTTo。

ToTTo包含,个训练示例,以及7,个用于开发和测试的示例。

由于标注的准确性,该数据集适合作为研究高精度文本生成的具有挑战性的benchmark。

此外,数据集和代码已经在Google的GitHubrepo上开源:

Git

转载请注明:http://www.0431gb208.com/sjsbszl/4388.html