当前位置:首页 » 好文分享 » 详情

百度SEO搜索引擎核心技术之中文分词

百度中文分词对于SEO工作人员来说是一定懂的,属于新手必须部分,但是网上很多SEO培训课程里面是没有这个章节,大多还属于浅层的操作思路,而没有重视搜索引擎原理。

百度中文分词是搜索引擎的核心技术之一,SEO人员需要了解中文分词是什么?如何利用中文分词做SEO?下面博客之家就这几个问题展开详细介绍。

中文分词有三种方法:字符串匹配分词法、词义分词法以及统计分词法。

一、 字符串匹配分词法,百度常用的中文分词技术
简单来说就是把长尾词按照规则拆分,了解一篇文章的主题内容等。每个搜索引擎会有一个类似字符串做基础的机械词典,每个机械词典之间还会有优先级。

字符串匹配分词法最常用的有以下四种:

1、正向最大匹配法(由左到右的方向)

就是把一个词从左至右来分词。

举个例子:”不知道你在说什么”这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”。

2、逆向最大匹配法(由右到左的方向)

举例说明:“我想去马尔代夫旅游”,逆向最大匹配分词:我想,想去,马尔代夫,旅游

3、最少切分(使每一句中切出的词数最小)

还是拿“我想去马尔代夫旅游”做案例,最少切分:我把上面哪句话分成的词要是最少的“我想去,马尔代夫旅游”这就是最短路径分词法,分出来就只有2个词了。

4、向最大匹配法

而有一种特殊的情况,就是关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,百度会进行正反向同时进行分词匹配。

博客之家提醒:各种搜索引擎的机械词典不同,分出来的词也不同。

二、语义词义分词法,理解层面的分词,尚不成熟。
语义词义分词不依托机械词典。通过让计算机模拟人对句子的理解,达到识别词的效果,主要是进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟,但是也在使用中。

举例说明:“长沙网站建设”词义分词是“长沙网站”“网站建设”

三、统计分词法。
统计分词法是根据词组的统计,发现那些相邻的字出现的频率高,那么这个词就很重要。可以作为用户提供字符串中的分隔符。比如还是拿“长沙网站建设”举例:统计分词是“长沙”“网站”“建设”

博客之家:个人认为百度中文分词大多数使用的是正向最大匹配分词。几种分词中统计分词法得到的词或句子的权重略高于字符串匹配的,简单理解就是完全匹配高于分开匹配,当然这也要看具体情况,本人写文章主要是为了分享以及探讨。

百度分词中一般会去掉一些无用的关键词,如的、啊、是等等。
打赏
X
打赏方式:
  • 支付宝
  • 微信
  • QQ红包

打开支付宝扫一扫
日期:2019年01月12日 22:51:21 星期六   分类:好文分享   浏览(43476)
本文地址:https://www.blogs.hk/post-4072.html   [百度已收录]
声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!

留言咨询

自动获取QQ

昵称

邮箱

网址

      Copyright © 2024 博客之家 版权所有  
      關於本站免責聲明sitemap新站登錄