simtext库介绍
simtext库可以计算两文档间四大文本相似性指标,分别为: - Sim_Simple 微软Word中的track changes
具体算法介绍可翻看Cohen, Lauren, Christopher Malloy&Quoc Nguyen(2018) 第60页 ![](http://image109.360doc.com/DownloadImg/2021/02/2314/216154186_3_20210223023217990_wm)
安装pip install simtext
使用中文文本相似性 from simtext import similarity
text1 = '在宏观经济背景下,为继续优化贷款结构,重点发展可以抵抗经济周期不良的贷款' text2 = '在宏观经济背景下,为继续优化贷款结构,重点发展可三年专业化、集约化、综合金融+物联网金融四大金融特色的基础上'
sim = similarity() res = sim.compute(text1, text2) print(res)
Run {'Sim_Cosine': 0.46475800154489, 'Sim_Jaccard': 0.3333333333333333, 'Sim_MinEdit': 29, 'Sim_Simple': 0.9889595182335229}
英文文本相似性 from simtext import similarity
A = 'We expect demand to increase.' B = 'We expect worldwide demand to increase.' C = 'We expect weakness in sales'
sim = similarity() AB = sim.compute(A, B) AC = sim.compute(A, C)
print(AB) print(AC)
Run {'Sim_Cosine': 0.9128709291752769, 'Sim_Jaccard': 0.8333333333333334, 'Sim_MinEdit': 2, 'Sim_Simple': 0.9545454545454546}
{'Sim_Cosine': 0.39999999999999997, 'Sim_Jaccard': 0.25, 'Sim_MinEdit': 4, 'Sim_Simple': 0.9315789473684211}
参考文献Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018. 中文文本分析相关资源汇总 cnsenti中文情绪情感分析库 两行代码读取pdf、docx文件
5个小问题带你理解列表推导式 Python网络爬虫与文本数据分析 综述:文本分析在市场营销研究中的应用 LabelStudio多媒体数据标注工具[5星推荐] 如何批量下载上海证券交易所上市公司年报 Loughran&McDonald金融文本情感分析库 如何使用Python快速构建领域内情感词典 Python数据分析相关学习资源汇总帖
漂亮~pandas可以无缝衔接Bokeh YelpDaset: 酒店管理类数据集10+G 万水千山总是情,给我点好看可好❤
|