问题:请问随便互联网上的一个页面,像搜狗,搜搜是不是根据哪些技术来提取该页面的核心内容的?是不是根据权重标签或者看到数量最多的关键词
参考答案:
好比谷歌这种知名搜索引擎,数据库里会有容量很大的常用词语资料库和核心内容识别方法,会把所有每个资讯文字的标题,去数据库比较,主要关键词,网站段落文字等谈得上该页面特性的东西来一一对比,从而计算出一篇独立页面的核心内容。 如果仅仅是不是根据文章标题又或是主要的词语,假如遭遇写这些文字的编辑不严谨,或某意义不怎么能表达的关键词多次出现,进而判断失效。
欢迎光临 叶子网络bbs论坛 (http://xuanfly.com/) | Powered by Discuz! X3.3 |