共 27 篇文章
显示摘要每页显示  条
Google 黑板报 -- Google 中国的博客网志: 数学之美 系列九 -- 如何确...数学之美 系列九 -- 如何确定网页和查询的相关性。显然我们应该根据网页和查询"原子能的应用"的相关性对这些网页进行排序。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。如果我们结合上网页排...
PostgreSQL文本相似度估计 | jianingy.comPostgreSQL文本相似度估计。git clone git://gitorious.org/postgrework-jianingy/mainline.git postgrework cd postgrework/pg_trgm_sml.将两段文本用向量A、B表示,计算AB夹角的余弦值用以表示相似度。使用余弦公式计算AB夹角的余弦值。> CA = 我:1 爱:1 北京:1 天安门:1 立交桥:0> CB = 我:1...
如果str1="test",str2="test",那么LD(str1,str2) = 0。如果str1="test",str2="tent",那么LD(str1,str2) = 1。
设q是字符串1和字符串2中都存在的单词的总数,s是字符串1中存在,字符串2中不存在的单词总数,r是字符串2中存在,字符串1中不存在的单词总数,t是字符串1和字符串2中都不存在的单词总数。字符串1:非对称变量。首先我们需要构建一个同义词对照表,将同义词对应到一个等价单词,在对字符串分词后对字符串中的所有单词到同义词表中查找,如果存在...
字符串相似度算法介绍 zz_土豆爸爸的BLOG_新浪博客字符串相似度算法介绍 zz (2008-11-19 15:08:31)LCS问题就是求两个字符串最长公共子串的问题。3. 余弦定理 (向量空间算法)假如字符串s1与s2,比较两个字符串的相似度,sim(s1,s2),假设s1,s2中含有n个不同的字符,其分别为c1,c2,... cn,判断字符串的相似度转换为两个字符串对应的向量v1,v2之...
在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1<=k<=N。例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),C1的向量表...
* <h3>类条件概率</h3>* P(x<sub>j</sub>|c<sub>j</sub>)=( N(X=x<sub>i</sub>, C=c<sub>j* </sub>)+1 ) <b>/</b> ( N(C=c<sub>j</sub>)+M+V ) <br>* 其中,N(X=x<sub>i</sub>, C=c<sub>j</sub>)表示类别c<sub>j&l...
贝叶斯是一种基于概率的学习算法,能够用来计算显式的假设概率,它基于假设的先验概率,给定假设下观察到不同数据的概率以及观察到的数据本身(后面我们可以看到,其实就这么三点东西,呵呵)。在机器学习中,我们感兴趣的是P(h/D),也就是给定了一个训练样本数据D,判断假设h成立的概率,这也称之为后验概率,它反映了在看到训练样本数据D后假设...
帮助 | 留言交流 | 联系我们 | 服务条款 | 下载网文摘手 | 下载手机客户端
北京六智信息技术股份有限公司 Copyright© 2005-2024 360doc.com , All Rights Reserved
京ICP证090625号 京ICP备05038915号 京网文[2016]6433-853号 京公网安备11010502030377号
返回
顶部