首页 ┆ 网站地图 ┆ 在线留言 ┆ 游戏资讯 ┆ 资源下载 
设为首页
加入收藏
联系我们
热门关键字: .net应用  操作系统  Dreamweaver  WinRAR  网络推广
高级搜索
您当前的位置: 主页>软件工程>UML>百度新闻后台逻辑流程分析
百度新闻后台逻辑流程分析
来源:csdn博客 发布时间:2008-01-10 发布人: 浏览: 人次   字体: [ ]  
今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。

    下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。  

    1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);

    2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;

    3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;

    4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);

        1:为什么是通过文本相似性计算得到的?看这个例子

        http://news.baidu.com/n?cmd=8&page=%68%74%74%70%3a%2f%2f%69%74%2e%68%65%78%75%6e%2e%63%6f%6d%2f%32%30%30%38%2d%30%31%2d%30%39%2f%31%30%32%37%30%36%36%34%30%2e%68%74%6d%6c&pn=1&clk=rrel&cls=housenews&where=toppage

       其实百度说是”相同新闻“,而实际上是两个不同的新闻,只是计算时候相似度高于阈值导致被认为是相同新闻。

       2:这个计算结果,即新闻N和现有的任何一篇新闻K的相似性要记住,后面有用处;

       3:新闻标题在计算相似性时候会赋予更高权值。

    5.如果发现没有和已有新闻完全相同的新闻,则认为是一条新的值得显示的新闻,将这条新闻列入”最新新闻“里面,并显示在界面;

      接下来要做的是:计算相关新闻。也就是百度新闻界面显示的”M条相关“的内容。还用计算么?不用计算了,上一步骤不是计算过文本相似性了么?

 直接拿来用即可,只要把相似性大于阈值(比如0.4)的文章作为相关新闻即可。

        1:步骤4在计算相似性的时候,居然不是在本分类内的文章计算,而是所有新闻,不管哪个分类的都进行计算,这个也出乎我的意料,为何这么说?

           来看http://news.baidu.com/n?cmd=5&page=%68%74%74%70%3a%2f%2f%6e%65%77%73%2e%78%69%6e%68%75%61%6e%65%74%2e%63%6f%6d%2f%6e%65%77%73%63%65%6e%74%65%72%2f%32%30%30%38%2d%30%31%2f%30%39%2f%63%6f%6e%74%65%6e%74%5f%37%33%39%33%30%31%34%2e%68%74%6d&pn=1

           主新闻:多米尼加发现家禽感染禽流感病毒 ,居然和很多诸如:“全球十大计算机病毒排名 CIH病毒居首”  这些已有新闻关联。这说明了不是和本分类新闻计算相似性,否则”全球十大计算机病毒排名 CIH病毒居首“是不会被错误的分类到国际新闻的。

         2:在步骤4计算的新进新闻N和已有新闻K之间的相似性,也会被新闻K用到,做过比较后,如果相似性大于阈值,此时点击新闻K,会在相关新闻里面显示新闻N

     6.此时基本完工,因为每个频道的”最新新闻“搞完,就意味着技术活到此结束了。

     7.每个频道的主体显示的有图片的新闻应该是人工选择的,人工从”最新新闻“里面选择决定哪些显示在主体页面内。

        注:刚开始我以为是程序自动选择的,比如”相同新闻“>100就显示在频道主体内,但是好像有若干新闻相同新闻很少也入选了。当然可能有其它机制决定是否放入频道主体显示,比如是否有图片,但是我倾向于认为是认为干预的结果。

     8.首页显示的新闻是各个频道主体内容的前K个,这个是自动的。    

     完毕,收工。       


相 关 文 章   发布商链接
·如何描述、分析和撰写流程图文档?
·Java与UML交互图
·解析UML的要点与应用
·用UML模型实现大型实时监控应用软...
·UML结合车载GPS终端系统的设计在...
·如何利用Rational对.NET程序进行建模
 §最新评论:(评论内容只代表网友观点,与本站立场无关!)
网名: 验证码:  【所有评论】【↑返回顶部
评 分: 12 345
评论内容:(不能超过500字,请自觉遵守互联网相关政策法规。[按 Ctrl+Enter 可直接提交]
注意:请勿在本站发布政治话题、色情及违反法律的内容。
IT知道网 声明:刊登此文章是为了传递更多信息,文章内容仅供参考,转载请注明出处。
推 荐 文 章
·如何描述、分析和撰写流程图...
·如何利用Rational对.NET程序...
·用UML模型实现大型实时监控应...
热 门 文 章
·如何利用Rational对.NET程序...
·UML结合车载GPS终端系统的...
·Java与UML交互图
·解析UML的要点与应用
·如何描述、分析和撰写流程图...
·用UML模型实现大型实时监控应...
网站首页 - 关于本站 - 加入收藏 - 网站地图 - 友情连接 - 在线留言 - 联系我们 - 返回顶部
Copyright © 2007 IT知道网.[冀ICP备07026896号]. All Rights Reserved .