txtformat
感谢追梦的风筝@dospy
简介:
十二种文件格式转换,四种内码转换,文件合并,文件分割,乱码修改,格式整理,文件更名,目录合并,广告删除,HTML 代码
删除,自动排版,文本搜索替换,正则表达式搜索替换,块搜索替换,通配符搜索替换.全面支持 Unicode,Unicode Big
Endian,UTF-8 格式文件,功能可扩展,支持批处理。文件体积小,纯绿色软件,不用安装直接运行。
地址:
http://pan.baidu.com/share/link?shareid=645911&uk=2986888837
用法
1 首先选择你的 txt/html 文件所在目录,该目录中的文件将显示在列表中
2 单击列表中的一个文件名来打开此文件
3 批处理就是一次性依次处理整个目录中的所有文件。
小技巧:关于去除广告
可以在你的 txt 文件所在的目录中创建一个名为 remove.txt 的文件,在其中写入你想要移除的广告内容,一行一条。
这样,txtFormat 会将 remove.txt 中的内容逐条、全部从你的 txt 文件中删除。
图1
图2
图3
软件界面说明:
1.基本操作功能区域自不必提。
2.格式整理及设置:
如图②,整理文本格式,空行,分段,缩进的。
3.TXT分割及合成:
相比于一楼的TXT合成器与TXT**来说,功能和操作略显逊色了一些,所以我很少用。
4.查找乱码,查找下一处乱码,修正乱码:
实体书的文本乱码一般比较多(例如:翱跏莱涨槟醒剑 比似胩荆肃)。那个乱码修复一般没什么效果,有时还会越
修复越糟糕,所以如果大家碰到乱码还是对照实体书或者去网上找其他的文本对照吧。
注:有很多不是乱码的文字有时也会被误当做乱码查找出来。
5.文件格式转换区域:使用很简单,点击合适的按钮就可以选择文件转换了,处理速度也非常快。
6.正则表达式应用区:主要使用区域。
先说说一些主要小说网站的书源文本问题:
1.起点中文网:电脑上www网的VIP章节为gif图片格式,手机上wap网的VIP章节为文本,如果是看正版书的推荐使用wap
文本(电脑也可以上wap网站的,百度一下wap有很多)。但是需要注意的是起点针对wap文本做了一些处理,已发现的一
是会把“三点”变成“…(为一半引号)”;二是会删除所有的“!”,所以需要自己添加了。起点中文网的小说文字版
更新最快的一般都是百度贴吧,但是百度贴吧的文字并不是wap文本,而是图片OCR扫校的,因为起点wap文字版更新时间
比图片版晚一天,使用OCR扫校很容易产生错误,再加上百度的河蟹屏蔽程度在网上首屈一指。所以取贴吧的文字做精校
要一边对照图片一边来。
2.纵横中文网:一般只去除了段首缩进,用txtformat的格式整理就可以处理了。
3.17K中文网:里面广告挺多,郁闷。比如:
“夲书兔费发步于щщщ、丨┓К、℃⊙М,第一时间呵看,请支持正板阅渎”。
4.文心阁:常常加入“ШШШ。щ╳ɡ。c℃ ”、“文心阁论坛”、“文心手打”、“【文】”、“【心】”、“【阁】”等
5.一些其他常见错误:实体书OCR扫校文本经常会把叹号错写成数字1,把问号错写成数字7;还有一些文本会把间隔符
“·”错写成半角的“?”,这个要注意,必须先查找这个再格式整理,否则半角问号就会变成全角问号,此时就找不到
了,另外还需要注意的是小数点通过格式整理会变成句号,所以使用txtformat查找数字的时候要注意这点。
最后被梅比斯·维亚米利欧编辑于5月1天前
|
| |
帖子:24 上传:5.51 GB 下载:1.48 GB 分享率:3.710 |
常见的硬回车错误:
1:段落直接被腰斩,从中间换行并开始下一段了;
例
2.段尾无标点(仅仅是缺标点,非第一种错误换行问题),或者段尾以逗号、顿号、单双前引号等非结束性标点结尾。
二.硬回车和错误分段换行问题的查找和修正:
1.准备工作:先使用txtformat格式整理,然后把段首的两个全角空格替换为空,再次格式整理。(目的是去除空行,规范格式,为下一步操作做准备)
2.去除章节标题:比如“第一卷 烽火连三月 第一章 九世善人”这种,因章节标题也是不用标点直接换行的,也属于硬回车查找范畴,如果章节少尚可,多的话查找就麻烦了,所以批量删除!当然,此时操作的文本用于查找,另需要多备份一个文本用于对照修改的。
就以“第XX卷 XXXX 第XX章 XXXX”这种为例:
——PS:如果章节名不是卷章形式也可以根据实际形式修改正则。另关于章节的汉字与阿拉伯计数形式之间的转换或者中间的空格缩进形式可以用emeditor的太阳系联盟脚本整理,很容易,这里不做过多说明。
3.再次重复第一部操作,进行格式整理。
4.开始使用txtformat查找硬回车:
5.发现错误的地方时,就在备份的文本里查找到该处并修改。 |
|