Archive | history project archive RSS feed for this section

一个项目中的分词算法

原来项目中的一种经过实际证明有效到近似语义效果的分词算法,归档下。

一、概述:

一种方法,对于一篇文字材料,能筛选出其中重要的字来帮助人们做到不用精细的通读全文就能获得最重要信息。 按照一定的语言规则,如与人们习惯中强调的单词距离较近的单词,在文本中被大写的单词,在一个网页中,被一定的标签修饰的单词,在一篇文章中出现次数较多的单词,在文章的标题中出现的单词等一般都认为是相对较重要的单词。也正基于这些关于人们使用语言的方法和习惯,通过一定的算法分指标的考察单词的重要性,从而就可以得到一篇文章中的重要单词和短语。

二、算法描述:

1.输入:文本、Html脚本文件

2.输出:概念集合。

包含每个概念的属性,如p_count,表示一个概念在一个文本中出现的次数;rank,表示这个概念的重要级别。

3.重要字分类说明:

  • ??????????? Typ[......]

阅读全文

Tags:

Comments { 0 }

项目总结之 wizag

在整理资料的时候发现了移动硬盘中存储的研究生时期做的一个项目的相关文档。 在这个项目中比较深刻的理解了信息检索的理论、实践。涉及information retrieval中重要的分词、权重计算等技术点。最终的效果也被证明很不错。从信息检索的理论的运用角度来说是成功的,这个都是Ping教授的功劳,分词算法包括逻辑都是他提供并且指导我们完善的。因为能够近似语义一样的自动提取一篇文章的中的关键字,作为一个插件的功能挺多人推崇。但是从项目的角度来说是不成功的。因为参与项目的同事同学的技术能力,提供的服务性能问题、产品的持续改善能力严重不足。

在研究生时候方向是数据(存储、数据库、数据挖掘),很感激碰到这个项目,形成或者改变了自己的技术方向。经常会回想起这个项目中梁老师在做项目的过程中教会的信息检索的理论实践。但是这个项目最终的效果不太满意,所以一直想找时间自己好好的就这技术这块总结一下。@T[......]

阅读全文

Tags: , ,

Comments { 1 }

Problems found in hbase-0.20.1 by static scan

todo:对其中典型bug的解释。包括规则rule的解释。? ?

在09年底在对开发的代码进行有限的白盒测试的时候,使用静态代码扫描工具就着依赖使用的hbase(当时0.20.0版本)的代码进行代码扫描。本身直接扫描的report结果内容很多,有些是style和bad practice这样的改善型的,但是也有挺多的通过在代码中确认属于真实bug的。尤其是有些非常低级的bug出现在RegionServer这种非常核心的class里。筛选出来通过team在US的一个同事Andrew Purtell提交了HBASE-1916到。

感觉那个时候Hbase的品质,至少是从代码这个角度看,真的是有挺多可以吐槽的。想起来有这样一个bug(HBASE-1968)发现也不是很难,问题的reproduct也很容易,就是向Hbase提交的put中包含了一个不存在的 column family[......]

阅读全文

Tags: , , , , ,

Comments { 0 }

HBASE-1968 ISSUE Report

整理资料的时候发现笔记本里outlook标红的几封邮件,归档下。不涉及team的legal和copyright的。描述了定位调查和汇报HBASE-1968的过程。只记得但是发现认为是个很低级的bug。在邮件中再看下才详细了解了下。

 

 

—————————————————–START——————————————————————————

Hi Andrew,

Thanks for your information.

Best regards

-Forrest

—–Original Message—–

From: Andrew Purtell[......]

阅读全文

Tags: , , ,

Comments { 1 }

Try WhiteBox Testing in Our Projec

工作中给所在team和其他几个team的的同事们做的一个实践的sharing。

sharing 的slides:Try WhiteBox Testing in Our Project

一个参考文档:WhiteBox

关于这次sharing

只是给小组share一下我们最近做了这样一件事情,最终的效果怎么样现在还有待检验,所以经验的东西并不是很多,在开始阶段开效果还不错,所以鼓励大家也可以再自己的项目中勇敢的尝试一下。ETP的课程告诉我们,相比于Black Box testing, whitebox testing 是相对要expensive的。从技术调查,和流程方面。技术调查上,我们通过调查一些静态代码扫描工具来帮助我们提高代码review的效率。在流程上,会通过一定的手段来分析这些工具的report,结对的来review代码。

本来不着重介绍语言太相关的东西[......]

阅读全文

Tags: , , ,

Comments { 1 }