ScrapySharp 对HtmlAgility的功能进行了扩展, 应用类似JQuery一样的方式通过css selector来选择html里面的元素。个人认为这样操作封装了HtmlAgility使用上的细节,而且显得更加的面向对象,更加的直观和简便。 比如对于这样的一段html: | <select id='someid'> <option selected value='0'>所有地区</option> <option value='1' >广东省</option> <option value='2' >广西省</option> <option value='3' >北京</option> <option value='4' >上海</option> <option value='5' >福建省</option> <option value='6' >江西省</option> </select> | 使用HtmlAgility来获取value以及对应的文本值的写法可以是这样的: | HtmlWeb web = new HtmlWeb(); web.OverrideEncoding = System.Text.Encoding.Default; HtmlDocument doc = web.Load(url); HtmlNodeCollection nc = doc.DocumentNode.SelectNodes('//select[@id=\'someid\']/option'); foreach (HtmlNode n in nc) { Console.WriteLine(n.Attributes['value'].Value); Console.WriteLine(n.NextSibling.InnerText); } | 而使用ScrapySharp则可以是这样做: | ScrapingBrowser Browser = new ScrapingBrowser(); WebPage PageResult = Browser.NavigateToPage(new Uri(url)); var searchDropdownBox = PageResult.Html.CssSelect('#someid').First(); var options = searchDropdownBox.CssSelect('option'); foreach (var option in options) { string value = option.GetAttributeValue('value'); string text = option.NextSibling.InnerText; } | 喜欢哪种方式那是因人而异了。 不过这里要注意的是, 要获取option的文本需要用到NextSibling.InnerText。 对于不熟悉的朋友可能要折腾一阵子。
|