全文检索的了解

张

张建站

2026/5/10 5:02:36

10分钟阅读

文章目录1全文检索的原理2索引的建立3搜索过程1全文检索的原理结构化数据搜索快是因为有一定的搜索算法。那么是不是可以将非结构数据中的一部分信息提取出来重新组织使其变得有一定结构然后对这部分有结构的数据进行搜索从而达到搜索较快的目的。索引从非结构数据中提取出来。重新组织的信息叫索引。反向索引通过字符串来反向映射到文件即通过字符串找到对应的文件。左边是一系列字符串称为词典。每个字符串都指向包含此字符串的文档链表(倒排表)。优点一次索引可以多次使用。2索引的建立1. 有一系列要建立索引的原文档。 2. 将原文档传给分词组件处理后得到词元。具体操作 1将文档分为一个个单独的单词。 2去除标点符号。 3去除停词(无特别意义的单词每一种语言的分词组件都有一个停词集合)。 3. 将词元传给语言处理组件处理后得到一系列词。具体操作 1变小写 2将单词缩减为词根形式。 3将单词转变为词根形式。 4. 将得到词传给索引组件创建索引。具体操作 1将得到的词创建一个字典。 2对字典按照字母顺序进行排序。 3合并相同的词成为文档倒排列表。 5. 通过索引存储将索引写入硬盘。3搜索过程1. 用户输入查询语句。 2. 对查询语句经过语法分析和语言处理后得到一系列词。 3. 通过语法分析得到一个查询树。 4. 通过索引存储将索引读入内存。 5. 利用查询树搜索索引得到每个词的文档链表对文档链表进行合并、去重得到结果文档。 6. 将搜索到的结果文档对查询的相关性进行排序。 7. 返回查询结果给用户。注如何计算文档和查询语句的相关性 1. 找出词对文档的重要性。这个过程称为计算词的权重过程。影响因素词文档算法向量空间模型 Term Frequency 在本文档中出现的次数。 Document Frequency 文档频次总共有多少文档包含此词。 2. 判断词之间的关系得到文档相关性。 3. 根据相关性从大到小排序。

x-cmd：现代化命令行工具集与包管理器，提升终端工作效率

1. 项目概述：一个为现代命令行而生的瑞士军刀如果你和我一样，每天的工作都离不开终端，那你一定对命令行工具又爱又恨。爱的是它的高效和强大，一个命令就能完成图形界面下繁琐的操作；恨的是，为了完成一个稍微…...

2026/5/10 4:53:44 阅读更多 →

条式隔热型材“先复合后表面处理”加工工艺

条式隔热型材“先复合后表面处理”加工工艺摘要：本文就“先复合后表面处理”这种隔热型材加工方法的三个关键环节：带热熔胶线的隔热条、隔热型材烘干、烤漆温度和时间控制等进行分析和探讨。关键词：先复合后表面处理；热熔胶线；烘干；烤漆温度；众所周知，穿条式隔…...

2026/5/10 4:50:50 阅读更多 →

可解释AI攻防：SHAP与LIME的对抗攻击与鲁棒性防御实践

1. 项目概述：当AI的“黑箱”遭遇“压力测试”在AI模型日益渗透到信贷审批、医疗诊断、司法评估等高风险决策领域的今天，一个核心矛盾愈发尖锐：我们既要求模型具备极高的预测性能，又必须能理解其决策逻辑，确保其公平、可…...

2026/5/10 4:48:42 阅读更多 →

CANN/pyasc Dump检查点功能

asc.language.basic.dump_acc_chk_point 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口，支持在昇腾AI处理器上加速计算，接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc asc.language.basi…...

2026/5/10 0:02:39 阅读更多 →