php – 像GOOGLE NEWS一样分组类似的新闻内容

由于在各种新闻网站上张贴了大量新故事/类似的新闻内容,我无法轻松管理RSS Feed。对于诸如世界新闻和商业新闻等主题,许多故事是多余的,给读者增加了一些负担,以便整理他们已经阅读过的故事。为了应对淹水和冗余的双重问题,我需要开发一个代码,减少阅读的项目数量,并使用重叠的信息来吸引有趣的话题。

如果我能够像GOOGLE NEWS / StackOverflow一样将类似的新闻内容分组并将其呈现给用户将会更容易。

这绝对是一个不容易解决的问题,可以通过以下方式解决:

智能文本解析功能
>原始硬件电源
>他们两个
>测试,测试,测试
>微调到底

首先我将不同的消息来源分组到一些比较广泛的类别。您可以轻松确定科技新闻来源不会在经济类别下发布新闻。 (或者会的,那就是问题。)

大多数情况下的新闻标题不会被触动,它仍然是原来的形式。所以分类,标题和发布日期是一个很好的起点,把新闻分组成一个。

如果您发现上述方法的问题,您需要在引擎盖下进行一些微调。

也许你需要阅读整篇文章,并逐个比较两个(数千个)文章。

>有很多禁忌可以扭曲比较,所以你需要忽略这些。
>你可能需要定义同义词(J Lo = Jennifer Lopez)

如果新闻的原始文本相似(您可以定义一个阈值),您可以再次比较其他因素(如上所述)。

一些新闻来源在RSS源中提供了很好的标签,也许你也可以使用它,但不依赖它。

请记住,开始时需要大量的微调(约1年),那么你会很好。

翻译自:https://stackoverflow.com/questions/3958135/grouping-similar-news-contents-together-like-in-google-news

转载注明原文:php – 像GOOGLE NEWS一样分组类似的新闻内容