Home » 搜索技术 搜索引擎本身都是内部完成的

搜索技术 搜索引擎本身都是内部完成的

从隐私的角度来看,这一点尤其好,而且也使得 搜索结果独一无二,进一步将其与其他模仿搜索引擎的替代方案区分开来。 Brave 搜索主管 Josep M. Pujol 表示: “我们可以在查询时访问所有索引、超过 200 亿个页面,这意味着我们正在实时提取任意信息(模式、表格、片段、描述等)。此外,我们非常精细地确定要使用的数据,从页面上的整个段落或文本到表中的单个句子或行。 鉴于我们有一个完整的搜索引擎可供使用,重点不是检索,而是选择和排名。此外,对于索引中的页面,我们确实可以访问用于排名的相同信息,例如分数、受欢迎程度等。这对于帮助选择更相关的来源至关重要。

使答案保持新鲜且基于事实

” 检索增强生成 (RAG) 搜索引擎 哈萨克斯坦 电话号码 的工作方式是它有一个搜索索引和大型语言模型,加上检索增强生成(RAG)技术。我询问了 RAG 的情况,Josep 证实它就是这样工作的。 他回答说: “你说得对,我们的新功能正在使用 RAG。事实上,我们已经在 2023 年 3 月发布的之前的 Summarizer 功能中使用了这种技术。但是,在这个新功能中,我们正在扩展提示内容中使用的数据的数量和质量。 ” 使用的大型语言模型 我询问了新的人工智能搜索引擎中使用的语言模型以及它们是如何部署的。 “模型通过 VLLM 部署在 AWS p4 实例上。 我们使用 Mixtral 8x7B 和 Mistral 7B 的组合作为主要的 LLM 模型。

电话号码

这些模型要小得多

然而,我们还运行多个定制训练 巴拉圭 电话号码列表 的变压器模型来执行辅助任务,例如语义匹配和问题回答。由于严格的延迟要求(0-20 毫秒)。 这些辅助任务对于我们的功能至关重要,因为这些任务负责选择最终出现在最终 LLM 提示中的数据;这些数据可以是依赖于查询的文本片段、模式、表格数据或来自我们的丰富片段的内部结构化数据。这不是能够检索大量数据的问题,而是选择要添加到提示上下文中的候选数据的问题。 例如,查询数据,包括从 47 个表、7 个模式中选择的 462 行。提示大小约为 6500 个令牌,最终响应仅为 876 字节。为了充分利用您投入创建内容的资源,您必须分享它。 

Similar Posts