Tag Archives | history project

一个项目中的分词算法

原来项目中的一种经过实际证明有效到近似语义效果的分词算法,归档下。

一、概述:

一种方法,对于一篇文字材料,能筛选出其中重要的字来帮助人们做到不用精细的通读全文就能获得最重要信息。 按照一定的语言规则,如与人们习惯中强调的单词距离较近的单词,在文本中被大写的单词,在一个网页中,被一定的标签修饰的单词,在一篇文章中出现次数较多的单词,在文章的标题中出现的单词等一般都认为是相对较重要的单词。也正基于这些关于人们使用语言的方法和习惯,通过一定的算法分指标的考察单词的重要性,从而就可以得到一篇文章中的重要单词和短语。

二、算法描述:

1.输入:文本、Html脚本文件

2.输出:概念集合。

包含每个概念的属性,如p_count,表示一个概念在一个文本中出现的次数;rank,表示这个概念的重要级别。

3.重要字分类说明:

  • ??????????? Typ[......]

阅读全文

Tags:

Comments { 0 }

项目总结之 wizag

在整理资料的时候发现了移动硬盘中存储的研究生时期做的一个项目的相关文档。 在这个项目中比较深刻的理解了信息检索的理论、实践。涉及information retrieval中重要的分词、权重计算等技术点。最终的效果也被证明很不错。从信息检索的理论的运用角度来说是成功的,这个都是Ping教授的功劳,分词算法包括逻辑都是他提供并且指导我们完善的。因为能够近似语义一样的自动提取一篇文章的中的关键字,作为一个插件的功能挺多人推崇。但是从项目的角度来说是不成功的。因为参与项目的同事同学的技术能力,提供的服务性能问题、产品的持续改善能力严重不足。

在研究生时候方向是数据(存储、数据库、数据挖掘),很感激碰到这个项目,形成或者改变了自己的技术方向。经常会回想起这个项目中梁老师在做项目的过程中教会的信息检索的理论实践。但是这个项目最终的效果不太满意,所以一直想找时间自己好好的就这技术这块总结一下。@T[......]

阅读全文

Tags: , ,

Comments { 1 }

Personalized News Discovery and Visualization, Diggol Launches Hot Topics and TopicMap[reference]

归档(转)prweb上 关于diggol的一篇报道。

Irvine, CA (PRWEB) June 16, 2006

New personalized free service to automatically discover topics important to each user from millions of blogs and news sources, and to visualize graphically the relations among the topics in one glance.

User generated contents are exploding and are changing the news media. There are over 37 million blogs now and the number of blog[......]

阅读全文

Tags: , , ,

Comments { 1 }

Wizag offers semantic analysis, attention to RSS[reference]

归档(转)techcrunch上面对wizag的介绍,除了文中对wizag项目的信息发现、内容自动提取等功能的介绍和描述,更在意的是文章后面用户的评价。虽然有Ping教授和人家打嘴仗的热闹,但更多的感受是教训。

RSS is world changing technology, but it risks getting bogged down in information overload. The simple solution is a system like MyYahoo where a limited number of feed items are displayed and the interface is most conducive to subscribing to a small number of feeds. The power user needs a l[......]

阅读全文

Tags: , ,

Comments { 0 }