Archive | 二月, 2013

mysql 查询计划

?

一、 概述

MySQL的查询执行计划(QEP)是借助EXPLAIN命令来实现的。了解MySQL 优化器是如何执行SQL 语句的。只是提供信息并不提供建议。EXPLAIN语句可以用作DESCRIBE的一个同义词,或获得关于MySQL如何执行SELECT语句的信息:?EXPLAIN?tbl_name是DESCRIBE?tbl_name或SHOW COLUMNS FROM?tbl_name的一个同义词。?如果在SELECT语句前放上关键词EXPLAIN,MySQL将解释它如何处理SELECT(在MySQL 5.7, 可以被EXPLAIN?的语句除了SELECT?还有?DELETE,?INSERT,?REPLACE, andUPDATE),提供有关表如何联接和联接的次序。只关心语句而不是一个表的explain。

语法:

[......]

阅读全文

Tags: , ,

Comments { 0 }

Data Mining 笔记频繁项&关联规则

一、关联规则介绍

关联规则反映一个事物与其它事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物发生就能够预测与它相关联的其它事物的发生。经典范例:购物篮(Market Basket)分析。通过发现顾客放入购物篮中商品之间的同现关系来分析顾客的购买习惯,从而实现商品的交叉销售和推荐。?

Implication means co-occurrence, not causality!蕴含意味着同现而非因果关系!

二、频繁项Frequent Itemset 术语

先看Frequent Itemset 频繁项集术语解释:
  • 事务集合:所有事务集合T={t1,t2,…, tN} ,如用户的购买日志。
  • 项集itemset:一个活多个项的集合? ? ? ? ? ? ?如购买日志中用户可以买的商品的集合。
  • k-items[......]

阅读全文

Tags: , , ,

Comments { 0 }

一个项目中的分词算法

原来项目中的一种经过实际证明有效到近似语义效果的分词算法,归档下。

一、概述:

一种方法,对于一篇文字材料,能筛选出其中重要的字来帮助人们做到不用精细的通读全文就能获得最重要信息。 按照一定的语言规则,如与人们习惯中强调的单词距离较近的单词,在文本中被大写的单词,在一个网页中,被一定的标签修饰的单词,在一篇文章中出现次数较多的单词,在文章的标题中出现的单词等一般都认为是相对较重要的单词。也正基于这些关于人们使用语言的方法和习惯,通过一定的算法分指标的考察单词的重要性,从而就可以得到一篇文章中的重要单词和短语。

二、算法描述:

1.输入:文本、Html脚本文件

2.输出:概念集合。

包含每个概念的属性,如p_count,表示一个概念在一个文本中出现的次数;rank,表示这个概念的重要级别。

3.重要字分类说明:

  • ??????????? Typ[......]

阅读全文

Tags:

Comments { 0 }

项目总结之 wizag

在整理资料的时候发现了移动硬盘中存储的研究生时期做的一个项目的相关文档。 在这个项目中比较深刻的理解了信息检索的理论、实践。涉及information retrieval中重要的分词、权重计算等技术点。最终的效果也被证明很不错。从信息检索的理论的运用角度来说是成功的,这个都是Ping教授的功劳,分词算法包括逻辑都是他提供并且指导我们完善的。因为能够近似语义一样的自动提取一篇文章的中的关键字,作为一个插件的功能挺多人推崇。但是从项目的角度来说是不成功的。因为参与项目的同事同学的技术能力,提供的服务性能问题、产品的持续改善能力严重不足。

在研究生时候方向是数据(存储、数据库、数据挖掘),很感激碰到这个项目,形成或者改变了自己的技术方向。经常会回想起这个项目中梁老师在做项目的过程中教会的信息检索的理论实践。但是这个项目最终的效果不太满意,所以一直想找时间自己好好的就这技术这块总结一下。@T[......]

阅读全文

Tags: , ,

Comments { 1 }