Cell Mates:利用表格数据中的有用信息赋能 LLM
文章探讨了如何利用表格数据增强大型语言模型(LLM)的能力。目前,LLM在处理表格数据方面表现不足,主要障碍在于缺乏有效的表示方法。文章提出了一种三步管道:理解数据结构、学习提问类型、创建机械摘要(如均值、相关性等)并生成图表。该方法旨在从表格数据中提取有用信息,并可用于RAG系统,补充现有数据,例如科学论文和行政数据。
我们似乎已经掌握了使用大型机器学习模型来提炼文字和图像信息的技术。然而,我们利用大型模型挖掘表格数据中有用信息的能力仍然非常欠缺。结果是,LLM 基本上没有编码来自这些表格数据集(例如,调查数据等)的知识,除了可能已经发布的统计摘要。整合表格数据的关键障碍在于提出一种有用的表示方法。将表格表示为一组文档,每行表示为一个句子,将会错过表格中的大部分知识。而且,如果处理不当,可能比毫无用处更糟糕。例如,不知道数据是长格式可能会导致重复无休止的相关数据。
一个更好的方案可能是依赖于机械提炼技术:基于对表格结构的最佳猜测(例如,长格式表格等,有时可以在数据字典中找到),创建单变量、双变量和一些多变量摘要。我们可以进一步增强这些摘要,通过提示 LLM 来提出我们可以向数据提出的问题类型,并从中学习。总而言之,这样的管道包含三个步骤:
- 理解数据,例如,数据是如何收集的,结构如何等等。
- 学习可以向数据提出哪些类型的问题。
- 创建机械摘要,例如,均值、相关性、分组等,以及针对 #2 的答案,以及关于创建这些答案的具体细节。同时,生成图表。
这里是一个初步的尝试。与往常一样,我们需要一些 ground-truth 数据来验证其工作效果。
我们可以将此管道用于 RAG,并用于补充“世界数据”,这些数据可能存在偏向显著发现的倾向。 Harvard Dataverse 等科学论文的数据存储库和行政数据是着手开始的绝佳场所。