折纸SEO SEO优化 什么是自动分词系统?搜索引擎是如何实现的

什么是自动分词系统?搜索引擎是如何实现的

紧接着上一讲,搜索引擎索引网页库确定之后,我们需要对索引网页库预处置,其中又分为两大类:网页剖析和确定倒排文件…

什么是自动分词系统?搜索引擎是如何实现的

紧接着上一讲,搜索引擎索引网页库确定之后,我们需要对索引网页库预处置,其中又分为两大类:网页剖析和确定倒排文件索引。而搜索引擎的自动分词系统就是进行网页剖析的条件。
  首先,中文和英文差其余是,英文单词之间有空格,而中文都是连贯在一起来操作的,在形式上,无法做出区分。以是中文文本在进行网页剖析之前,需要将文本切分为多个词或者字。在现在检索中,主要可以分为按字检索和按词检索,其中按词检索,拥有更快的速率和较高的准确性。
  自动分词系统算法先容
  分词系统基本方式:基于字符串匹配的分词方式和基于统计的分词方式。
  1)基于字符串匹配:也称为机械分词,根据几个既定的战略,将守候剖析的字符串和一个容量足够大的词典中的词条进行匹配,若在词典中找到同样的一个字符串,那么匹配乐成。
  字符串匹配分词,根据扫描偏向,可以分为:正向匹配和逆向匹配;根据差异长度有限匹配,可以分为:最大匹配和最小匹配;根据是否与词性标注相连系,可以分为:单纯分词方式和分词与标注相连系的一体化方式;
常用的机械分词方式:正向最大匹配,逆向最大匹配,最小切分(就是在每一句中切除的词量最少,而不是单个词字节最少) (盐城SEO遐想:使用正向最大匹配,逆向最大匹配,和我们SEO中经常用到的关键词靠前,则排名越有利,是否存在关联)
  同时,在机械分词法中,存在这样一个模子:ASM(d,a,m);
  d:匹配偏向,+示意正向,-示意逆向;
  a:每次匹配失败后增添或削减字串长度(字符串),“+”就是增添一个,

如何让自己做的网站能被搜索引擎搜索到?

“-”就是削减一个;
  m:最大或最小匹配标志,+为最大匹配,-为最小匹配。
  对于,中文汉字来说,ASM(+,=,+)是最为适用的方式。
  2)基于统计的分词方式先容:
  在显示形式上,词是多个字的稳固组合,以是说,在文章中,相邻的字同时泛起的次数越多,那么越有可能是一个词,因此,字和字相邻泛起的的频率可以也许的反映出词的可信率。
  通过公式:M(x,y)=log( P(x,y) / p(x)p(y) )来盘算他们的互现信息,该互现信息体现了汉字之间连系的慎密水平,当M(x,y)的值大于某一阈值时,便可以确定这是一个词。
  由于,只需要对字组频率进行盘算,不需要使用词典,以是叫做无词典分词方式,或者说统计分词方式。
  瑕玷:经常会抽出一些高频,但不是词的常用词组,如:“我们”“配合”“有的”等。
  以是在正常使用中,统计分词法,都市使用一部基本的分词词典(常用词词典),通过字符串分词系统,识别出常用词组,同时通过统计分词系统,识别出新词,生词,两者连系,即施展出字符串匹配分词系统的速率快,效率高,又可以使用统计分词系统识别生词,自动消除歧义的优点。

爱搜索是一个有偿的搜索引擎,被雅虎誉为第二

本文来自网络,不代表折纸SEO立场,转载请注明出处:https://www.30th-feb.com/5565

作者: DAR_KING

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

在线咨询: QQ交谈

邮箱: luckiestmjt@163.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部