用python分析金庸小说

dinghj 2013-10-12

展开全文

用python分析金庸小说

TY 发布于 2011-10-24 16:09:29，分类:python语言基础，1评/2668阅

转载自： http://groups.google.com/group/python-cn/browse... 如何用python处理网络上古高尔级别的文本数据，如何查询词汇之间的联系，如何从大量数据中抽取有用的信息，一直是自然语言处理（Natural
Language Processing）工作的一个基础。
最近利用闲散时间，写了个简单的脚本。给个名字，叫做WebUrlCrawl.py。就是获得某个网站所有页面的url。里面有个bug，就是TCP端
口的问题。我用这个脚本分析了一下天涯在线书库里的金庸全集。虽然很慢，不过基本上没有大错。

[Python]代码片段

#!/usr/bin/python

import urllib

import re

from sgmllib import SGMLParser

class URLLister(SGMLParser):

def reset(self):

self.urls = []

SGMLParser.reset(self)

def start_a(self, attrs):

href = [v for k, v in attrs if k=='href']

if href:

self.urls.extend(href)

def doUrls(url):

print "hehe\tURL:\t"+url

def crawlWeb(web_url):

web_url_s = web_url.split("/")

doUrls(web_url)

lenW=len(web_url_s)

ToCrawlUrls = []

ToCrawlUrls_temp=[]

BeCrawledUrls = []

ToCrawlUrls.append(web_url)

while(len(ToCrawlUrls) !=0):

#print ToCrawlUrls

#print "\t\tok"

for i_url in ToCrawlUrls:

#print "parsing\t" + i_url

raw_html = urllib.urlopen(i_url).read()

lister=URLLister()

lister.feed(raw_html)

temp_urls = lister.urls

for j_url in temp_urls:

if(re.search(r"http:",j_url)!=None and (re.search(r'html

$',j_url)!=None or re.search(r'htm$',j_url)!=None)):

j_url=j_url

elif(re.search(r'html$',j_url)!=None or re.search(r'htm

$',j_url)!=None):

if(re.search(r"^\.",j_url)==None):

j_url=i_url+j_url

else:

continue

else:

continue

j_url_s = j_url.split("/")

lenJ = len(j_url_s)

if(BeCrawledUrls.count(j_url)==0):

if(lenJ >= lenW):

#print "\t"+j_url+"\n\t"+i_url

if(re.search(i_url,j_url)!=None):

ToCrawlUrls_temp.append(j_url)

doUrls(j_url)

BeCrawledUrls.append(i_url)

ToCrawlUrls = ToCrawlUrls_temp

ToCrawlUrls_temp = []

crawlWeb("http://www./hyzpj/hyzpj/wx/jingyong/xajh")

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： dinghj > 《自然语言处理》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

dinghj

关注对话

TA的最新馆藏

利用page rank,hits算法实现的一个简单的文本摘要系统
用graphviz,pygraphviz快速自动绘图
利用pygraphviz绘制二叉树
[转] 法国画家delphinenjolras【绝品收藏】
艾菲：你以为做的是投资，其实只是在赌博！
凌落辰：从几道题中看到的股市哲思

喜欢该文的人也喜欢更多

热门阅读换一换