Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

利特拉
正确的文章链接:

使用生成的预训练语言模型创建企业问答系统的方面

Golikov Aleksei



109316, Russia, Moscow, Volgogradsky Ave., 42

ag@mastercr.ru
Akimov Dmitrii

ORCID: 0009-0004-2800-4430

博士学位 技术科学



109316, Russia, Moscow, Volgogradsky ave., 42

akimovdmitry1@mail.ru
Romanovskii Maksim



10243, Germany, Berlin, Koppenstra straße, 93

maksim.s.romanovskii@gmail.com
Trashchenkov Sergei

ORCID: 0000-0001-8786-8336



127018, Russia, Moscow, Sushchevsky Val, 16, p. 4

trashchenkov@gmail.com

DOI:

10.25136/2409-8698.2023.12.69353

EDN:

FSTHRW

评审日期

17-12-2023


出版日期

25-12-2023


注解: 本文介绍了使用生成式预训练语言模型构建企业问答系统的各种方法。 当前生成式预训练语言模型的一个显着限制是对输入令牌数量的限制,这不允许它们"开箱即用"处理大量文档或处理大文档。 为了克服这一限制,本文考虑了基于目前最流行的两个开源解决方案–Haystack和LlamaIndex框架的文档索引以及随后的搜索查询和响应生成。 已经表明,与开源LlamaIndex框架相比,使用具有最佳设置的开源Haystack框架可以让您在构建企业问答系统时获得更准确的答案,但是,需要平均使用多个令牌。    本文使用比较分析来评估在使用Haystack和Llamaindex框架的企业问答系统中使用生成式预训练语言模型的有效性。 所获得的结果的评估使用EM(精确匹配)度量进行。 使用生成式预训练语言模型创建问答系统的研究的主要结论是:
1。 就使用的令牌数量而言,使用分层索引目前非常昂贵(对于分层索引,大约160,000个令牌,而对于顺序索引,平均30,000个令牌),因为响应是通过顺序处理父节点和
2. 使用具有最佳设置的Haystack框架处理信息可以让您获得比使用LlamaIndex框架(具有最佳设置的0.7与0.67)更高的答案准确性。
3. 使用Haystack框架在响应的准确性方面更具不变性,就块中的令牌数量而言。
4. 平均而言,使用Haystack框架在令牌数量方面(约为4倍)比LlamaIndex框架更昂贵。
5. LlamaIndex框架的"create and refine"和"tree summarize"响应生成模式在收到的响应的准确性方面大致相同,但是,"tree summarize"模式需要更多令牌。


出版日期:

生成语言模型, 信息搜索引擎, 问答系统, 索引, 干草堆, [医]LlamaIndex, 块,块, 准确度, 令牌, 猎犬,猎犬