搜索引擎的数据预处理

网站运营 强烈建议 2024-03-22 08:04 83 0

  我们先来看一下搜索引擎的工作原理。在搜索引擎原理中,搜索引擎工作流程大致有三点:数据采集、数据预处理、查询服务,今天成都seo在这里和大家分享一下数据预处理,值得注意的是,在我们所述的“数据预处理”就是主要包含四个方面:关键词提取,“镜像网页”以及“转载网页”的消除,链接分析和网页重要程度的计算。

  一、关键词提取

  首先要先会提取关键词。在每一章网页,包含了大量的和主题内容无关的内容,关键词提取的任务,就是要提取出网页源文件的内容部分所含的关键词。提取的方法:根据百度分词技术,将内容切成多个词组成的数组,再取出“在”“的”等无意义的词组,确定最终的关键词。

  二、链接分析

  1)链接分析中有提到两个概念,词频(TF):该关键词在关键词提取之后的关键词集合中的出现频率

  2)文件频率(DF):该关键词在所有文件中的出现频率,在所有文件中,该关键词在多少文件中出现

  3)搜索引擎可以通过HTML文本标签,来确定关键词的重要性

  我们认为搜索引擎的数据预处理大致可以从以上几方面来进行。

本站资源均来自互联网或会员发布,如果不小心侵犯了您的权益请与我们联系。我们将立即删除!谢谢!