Archive

Archive for the ‘算法’ Category

网页正文提取

April 6th, 2010 陈毓端 1 comment

网页正文提取的算法很多也很复杂 当然准确度更有不同

技术难点无非就是在正文除噪

我的实现方法是《基于相似度及密度匹配》

1 网页分块

2 标题相似度匹配

3 求网页平均长度及密度

下图是sina的一篇新闻最终页密度值及相似度波形图:

先放出demo

http://www.woyuw.com/exthtml/

准确度还有待提高

Categories: php, 算法 Tags: