arXiv:2504.01157 (cs) [于2025年4月1日提交]

Title: Beyond Quacking: Deep Integration of Language Models and RAG into DuckDB

作者: Anas Dorbani, Sunny Yasser, Jimmy Lin, Amine Mhedhbi

摘要:知识密集型分析应用需要从结构化的表格数据和非结构化的文本文件中检索上下文,以便进行有效的决策。大型语言模型(LLMs)显著简化了此类检索和推理数据管道的原型设计。然而,高效地实现这些管道仍然需要大量的努力,并且面临一些挑战。这通常涉及协调异构数据系统、管理数据移动以及处理底层实现细节,例如,LLM 上下文管理。为了应对这些挑战,我们引入了 FlockMTL:一种用于数据库管理系统(DBMSs)的扩展,它深度集成了 LLM 功能和检索增强生成(RAG)。FlockMTL 包括模型驱动的标量和聚合函数,从而可以通过元组级别的映射和归约来实现链式预测。借鉴关系模型的思想,FlockMTL 整合了:(i) 基于成本的优化,可以无缝应用批处理和缓存等技术;以及 (ii) 资源独立性,通过新颖的 SQL DDL 抽象实现:PROMPT 和 MODEL,它们被作为与 TABLE 并列的一等模式对象引入。FlockMTL 简化了知识密集型分析应用的开发,并且其优化减轻了实现负担。

主题:| 数据库 (cs.DB); 信息检索 (cs.IR) ---|--- 引用方式:| arXiv:2504.01157 [cs.DB] (或 arXiv:2504.01157v1 [cs.DB] 对于此版本)