Home > php, 算法 > 网页正文提取

网页正文提取

[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=757]

网页正文提取的算法很多也很复杂 当然准确度更有不同

技术难点无非就是在正文除噪

我的实现方法是《基于相似度及密度匹配》

1 网页分块

2 标题相似度匹配

3 求网页平均长度及密度

下图是sina的一篇新闻最终页密度值及相似度波形图:

先放出demo

http://www.woyuw.com/exthtml/

准确度还有待提高

Categories: php, 算法 Tags:
  1. June 27th, 2010 at 12:03 | #1

    您好 想学习一下您做的这个demo,不知道能不能共享一下啊!