分享

如何高效收集微信公众号文章为你所用?(续)

 lgzlawyer 2015-06-12


编者按:第一期法器栏目推出后我们收到了不少反馈,今天林耀律师将对各位的问题进行解答。还没阅读过我们上期文章的朋友也可以通过“阅读原文”查看。


作者 林尧,浙江星韵律师事务所律师,软件技术研究者,硬技术流律师。

编辑 Syouth,土肥圆纯二郎,草草,江俊文

这是一个续篇,主要的作用是答疑,希望不是狗尾续貂。


上次的文章后(回复“收集”查看),不少朋友加我微信反映,教程操作起来好像有点难度;还有些朋友明明已经刷出了正常的rss地址,却觉得是一堆乱码,没敢相认;还有些朋友将地址导入rss之后发现,文章里面都是些看不懂的符号,怎么去掉?

好吧,怪我咯。


言归正传。本文主要解决以下几个问题:一、在已经得到rss地址的情况下,如何选取rss阅读器;二、如果文章中出现HTML代码,如何去除;三、一种新的解决方案。

选取rss阅读器

从前,rss阅读器是有唯一选择的,那就是Google reader。但是,自从201371日,Google抛弃这个孩子之后,rss阅读器市场便开始一片混战。这几年中,准备取而代之的rss阅读器不少。稍有些名气的,有网页端的Feedly,有PC端的FeedDemon,还有Mac端的Reeder,这些阅读器各有千秋,我本人采用的是网页端的inoreader+Mac端的Reeder组合。

上次的文章中,我们说到,我们已经拿到了rss地址。那么,接下来怎么以正确的姿势打开rss呢?下面以图说话。


这是上次文章的最后页面,接下来,我们可以先点击打开微信公众号的rss链接,测试该地址是否能正常运行。如果一切正常,我们会进入下面这个页面。


是不是一堆看不懂的乱码?不用担心,这说明我们的RSS运作正常。下一步,请大家打开www.inoreader.com进行注册。然后,我们就进入了inoreader的主页面。


按上图完成注册,并订阅法律那些事儿rss之后,我们已经订阅成功了。效果如下图。



去除订阅公众号中的HTML代码


还有朋友提到,打开订阅号的文章之后,显示的还是一堆代码,只在一堆代码中显示有几个能看得懂的中文字。好吧,其实,这是那位生成rss网址的大神wlwr为了保留网页中的字体格式,就留下了其中的html代码,但rss阅读器没有识别,结果反而给用户带来了障碍。

那么有解决方案么?答案是有的!至少在inoreader里是有的。细心的朋友可能已经发现了,在每篇文章的左上角有两个小图标,一个是地球,一个是茶杯。神器就是它们!

我们先说说茶杯的功能,嗯哼,就是你们梦寐以求的除乱码啦!不信你试试?

还有种情况,微信处于对知识产权的保护和流量的保护,在其他网站调用他的图片时,会出现下面这个图片。


这时,就是地球上马的时候了!点击地球,看看发生了什么?图片出现了么?OK!下面是两张说明图片。





新的解决方案

难道每篇文章都要这么点才能去乱码?是不是很烦?是的!我也觉得蛮烦的。那么有什么办法呢?解决思路之一,就是更换别的rss生成器。于是,我就挖地三尺了,一头栽进互联网的汪洋大海中,寻找那个和我心灵相通的人。

然后,真的找到了!

同样是爬虫,不过这位仁兄或仁姐的解决方案更高明一些,把字体样式完整的保存了下来。恩,地址是http:/// 具体的操作与之前的生成网站差不多,就不具体介绍了。略见下图:


嗯哼。今天又愉快的结束了!是为续。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多