Archive | archive RSS feed for this section

兰迪·波许教授的最后一课

偶尔整理硬盘时候发现的《兰迪·波许教授的最后一课》相关资料,包括视频,是08年的时候下下来看的,非常感人。

视频地址:兰迪·波许教授的最后一课

文 ? ? ? ?档:[兰迪·波许教授的最后一课].Randy.Pausch’s.Last.Lecture.Transcript

附Randy 语录:

  1. Brick walls are there for a reason: they let us prove how badly we want things.
    人生路上有阻挡你梦想的砖墙,那是有原因的。这些砖墙让我们来证明我们究竟有多么想要得到我们所需要的。
  2. Experience is what you get when you didn’t get what you wanted.
    当你得不到你想的到的东西时,你会得到经验。
  3. Never lose the[......]

阅读全文

Tags: , ,

Comments { 1 }

给某某导师的一封邮件

整理之前常用的网易邮箱的时候,发现几篇比较长的邮件,感受到了当年的年轻气盛,被自己小激励了一把。当年觉得很私密的邮件,现在倒愿意在自己的空间归档下,不然可能就真的扔掉了。是研究生入学前给当年向某位知名人生导师写的邮件,并未得到回复:-(。看到邮件里描述自己的还挺可爱的,虽然使劲回忆起来有些太心酸太囧的经历没有好意思写进去。但是有的啰嗦,怪不得人家不回呢,呵呵。好像更像是自己和自己说话。有热情,有干劲,但是似乎有一点偏执。现在回头看。豆妈说一定不要让我们豆豆也这么辛苦。很感激当年的这些经历,也不太愿意掖着藏着。倒是现在的自己有些地方需要重新拾起来一点当年的热情。

 

**************************************************************************************************
**老师您好[......]

阅读全文

Tags: , ,

Comments { 3 }

一个项目中的分词算法

原来项目中的一种经过实际证明有效到近似语义效果的分词算法,归档下。

一、概述:

一种方法,对于一篇文字材料,能筛选出其中重要的字来帮助人们做到不用精细的通读全文就能获得最重要信息。 按照一定的语言规则,如与人们习惯中强调的单词距离较近的单词,在文本中被大写的单词,在一个网页中,被一定的标签修饰的单词,在一篇文章中出现次数较多的单词,在文章的标题中出现的单词等一般都认为是相对较重要的单词。也正基于这些关于人们使用语言的方法和习惯,通过一定的算法分指标的考察单词的重要性,从而就可以得到一篇文章中的重要单词和短语。

二、算法描述:

1.输入:文本、Html脚本文件

2.输出:概念集合。

包含每个概念的属性,如p_count,表示一个概念在一个文本中出现的次数;rank,表示这个概念的重要级别。

3.重要字分类说明:

  • ??????????? Typ[......]

阅读全文

Tags:

Comments { 0 }

项目总结之 wizag

在整理资料的时候发现了移动硬盘中存储的研究生时期做的一个项目的相关文档。 在这个项目中比较深刻的理解了信息检索的理论、实践。涉及information retrieval中重要的分词、权重计算等技术点。最终的效果也被证明很不错。从信息检索的理论的运用角度来说是成功的,这个都是Ping教授的功劳,分词算法包括逻辑都是他提供并且指导我们完善的。因为能够近似语义一样的自动提取一篇文章的中的关键字,作为一个插件的功能挺多人推崇。但是从项目的角度来说是不成功的。因为参与项目的同事同学的技术能力,提供的服务性能问题、产品的持续改善能力严重不足。

在研究生时候方向是数据(存储、数据库、数据挖掘),很感激碰到这个项目,形成或者改变了自己的技术方向。经常会回想起这个项目中梁老师在做项目的过程中教会的信息检索的理论实践。但是这个项目最终的效果不太满意,所以一直想找时间自己好好的就这技术这块总结一下。@T[......]

阅读全文

Tags: , ,

Comments { 1 }

Problems found in hbase-0.20.1 by static scan

todo:对其中典型bug的解释。包括规则rule的解释。? ?

在09年底在对开发的代码进行有限的白盒测试的时候,使用静态代码扫描工具就着依赖使用的hbase(当时0.20.0版本)的代码进行代码扫描。本身直接扫描的report结果内容很多,有些是style和bad practice这样的改善型的,但是也有挺多的通过在代码中确认属于真实bug的。尤其是有些非常低级的bug出现在RegionServer这种非常核心的class里。筛选出来通过team在US的一个同事Andrew Purtell提交了HBASE-1916到。

感觉那个时候Hbase的品质,至少是从代码这个角度看,真的是有挺多可以吐槽的。想起来有这样一个bug(HBASE-1968)发现也不是很难,问题的reproduct也很容易,就是向Hbase提交的put中包含了一个不存在的 column family[......]

阅读全文

Tags: , , , , ,

Comments { 0 }