网页正文提取
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=757]
网页正文提取的算法很多也很复杂 当然准确度更有不同
技术难点无非就是在正文除噪
我的实现方法是《基于相似度及密度匹配》
1 网页分块
2 标题相似度匹配
3 求网页平均长度及密度
下图是sina的一篇新闻最终页密度值及相似度波形图:

先放出demo
准确度还有待提高
网页正文提取的算法很多也很复杂 当然准确度更有不同
技术难点无非就是在正文除噪
我的实现方法是《基于相似度及密度匹配》
1 网页分块
2 标题相似度匹配
3 求网页平均长度及密度
下图是sina的一篇新闻最终页密度值及相似度波形图:

先放出demo
准确度还有待提高
您好 想学习一下您做的这个demo,不知道能不能共享一下啊!