古稀老人赵 / 读书 / 中国古旧地图开放协作整理计划,正式公开...

0 0

   

中国古旧地图开放协作整理计划,正式公开发布了

2020-03-27  古稀老人赵

从2015年到2020年,“发现中国”知识地图制作分享平台已经走过了5个年头。目前我们已经拥有2.5万注册用户,日均访问用户约3000人,在历史爱好者群体和一些学者中具有一定知名度。在去年十月,我们运营团队启动了一项名为“中国古旧地图开放协作整理计划”的项目。这项计划旨在通过志愿者开放协作的模式,将国外各大图书馆、博物馆收藏的;采用公有或者非商业版权,已经数字化并开放下载的;涉及我国的建国前的中外古旧地图进行搜集、整理和翻译。以此形成统一的索引目录,让任何人都能免费使用。项目最终完成后,所有结构化数据将开放下载。根据规划,完成这一项目大概需要2年以上的时间。经过30余位志愿者约半年的陆续工作,我们于2020年3月正式对外公开发布0.1版本,收录了美国国会图书馆的一千余幅地图。

中国古旧地图开放协作整理计划,正式公开发布了

全新的中国古旧地图项目

为什么我们叫“发现中国”呢?就我个人最初的想法,就是希望人们能够透过地图,直观的看到中国从古到今的社会变迁和文化传承。我们的域名是“ageeye.cn”,“eye”代表着发现和探索,“age”指时代和历史,“cn”则表示着中国。因为我相信,在经济上取得伟大成就之后,中国的文化复兴将是下一次的漫漫征程。因此我们团队希望和亿万人一起,砥砺前行,完成属于自己的一份义务。

不过要实现这一目标,实际上是极其困难的。在创办之初,既无名气,也无资源的发现中国,只能寄希望于靠普通爱好者制作分享地图的方式去实现这一目标。分享地图需要一个免费简易的制图工具,所以开发一个适合人文地理用户使用的地图编辑器,是最初几年的主要工作。应该说,平台提供工具、用户分享内容是一种很常见的互联网模式,但它的弊端也很明显,就是内容质量的不可控。特别是爱好者群体非常小众;对严谨性和完整性要求又极高;需要经年累月来完成;却没有什么可阅读性的地图而言,这一点可谓致命。

经过三年的发展,我们用户中学习人文社科专业的学生逐渐多了起来,这让我们意识到,向更加专业的方向发展或许是一条正确的道路。为此我们在2018年上线了一个“中国古旧地图”专栏,旨在发布一些来自国外图书馆开放下载的高清古旧地图资源,并通过组织运营团队志愿者,来完成一些相对可靠完整的内容。当时我们的运营团队畅想过一个庞大的计划,除了要发布几百上千的高清古旧地图外,还要推出更多的专栏,比如中国历史地图、中国古城地图等等。

中国古旧地图开放协作整理计划,正式公开发布了

发现中国2018年上线的两个专栏

理想很丰满,现实很骨感。在付诸于实践后,这些计划很快因为经验、人员、时间、技术、经费等诸多原因无果而终。就其失败的经验来看, 我们认为,通过组织志愿者的方式协作内容并非不可行,但首先必须有明确的理念和强有力的组织规划,让整个项目完全可控;其次必须有完成协作的技术支撑,毕竟在地图上制作地理数据需要专门的工具。

为此,我们吸取之前失败的教训,决定在2019年重启这一计划,希望通过志愿者在线协作的方式,推出一系列相对可靠完整的,轻量级的人文社科领域地理基础数据库。这一次,我们的理念从地图上升到了地理数据;从文本信息发展到了数据结构化;从内部制作变成了开放协作。

中国古旧地图开放协作整理计划,正式公开发布了

中国古旧地图的轻量化数据结构设计

我们首先要解决的问题就是数据结构化和可视化等技术问题。在以前,发现中国上用户分享的内容,大多是一些非常简单的示意图和数据混乱的专题图,来源不知,作者身份不明,数据也以经纬度数据为主。然而,人文地理类的数据真正可以量化成经纬度坐标的,其实只是少数,有时甚至是极少数。多数数据可能是作者、作品、年龄、朝代、收藏单位等信息,同时还可能涉及人物关系等复杂的知识图谱,还可能包含大量文字、图片、音视频等多媒体信息。

传统上的做法,一般是使用通用工具,比如Excel、Access、ArcGIS等进行结构化,完成后要么直接通过文件分享,要么再进行二次开发后提供在线浏览。不过可惜的是,这些软件几乎没有一个是针对人文社科需求而开发的。其次就是开发一套针对这个项目需求的信息系统,可以支持在线管理和在线发布。定制开发虽然功能强大,但对于人文项目及其有限的经费而言,其投入大、周期长、不可控,运营维护和持续升级都很困难。在我看来,这也是限制我国数字人文发展的重要因素之一,同时也造成了极大的资源浪费。而对于我们这样基于互联网的志愿者协作项目而言,在线发布、在线使用是必然的,所以选择开发一套专门的系统这条路子也是必然,不过好在作为技术人员,开发对于我们而言,倒并不是特别困难的事情。

我们的定位是轻量级的数据库,毕竟志愿者团队不是专门的科研团队,没法做太深入的东西,我们的用户群体也以爱好者和学生居多,查询是普遍需求。另一方面,我们未来还要推出其它结构化协作计划,所以专门针对古旧地图去开发一套系统就很不划算。因此,我们把目标定位为一个适合人文社科类项目的通用协作平台,并把这个新的平台命名为“地图书”。在这次的取名中,我把“地图书”当作是“左图右史”更加通俗的名称,域名则为“ditushu.com”,简单直接。和发现中国“地图分享知识”的口号一样,我们也在志愿者中征集了新的口号,最后有一位志愿者的点子脱颖而出,他说道:“胸怀古今天下事,心藏经纬地图书。”

也许,胸怀古今,心藏经纬,就是地图书未来的座右铭吧。

我们首先实现了一个通用的结构化数据管理系统,可以基于协作项目的实际情况创建相应的数据结构,并且可以支持常见的一对多关系、多对多关系和图谱关系,基本满足各种轻量化系统的需要。为了解决志愿者一边协作,用户一边使用的问题,我们将数据库设计为“草稿版”和“发行版”两个版本。草稿版本只允许协作者浏览编辑,发行版允许任何人只读浏览。

为了方便人文项目的使用,我们针对性的设计了一些特殊表字段。比如为了呈现超高清的中国古旧地图,我们专门设计了一个图片字段。上传的图片如果低于3000万像素,可以支持实时切片,超过这一数值时,后台会在队列中预先生成切片缓存,最大可以支持约5亿像素的图片。这样用户就无需下载,可以在线浏览高清古旧地图中的任何部分了。一副古旧地图中的信息有时候非常大,对于很多人而言,这些地图虽然精美,却很难看懂到底说的什么。让普通人看得懂,一直是我们的重要理念,因此未来我们还将在为图片字段增加通用的标注功能,可以通过标注图片像素位置中的某个信息点,让人快速理解隐藏在地图中的信息。

中国古旧地图开放协作整理计划,正式公开发布了

左侧显示列表,可以进行搜索、过滤、排序等操作,右侧进行浏览和编辑,并且可以作为古旧地图浏览器

我们提供了点、线、面字段支持,只要添加这些字段,就可以在地图中编辑地理元素。通过统一的图层设计,地图被分为栅格瓦片图层、矢量瓦片图层、GeoJSON矢量图层、热力图层、粒子图层等。通过不同图层的自由堆叠组合实现想要的地图可视化效果,未来还将实现三维可视化。对于文本字段,文本编辑器可以添加各种脚注、尾注,也可以把高清古旧地图中放大后的任意部分,当作插图插入到文本编辑器中。未来我们还将实现文本编辑器插入任意结构化数据引用条目,以及插入矢量地图等功能。

通过对数据的充分结构化,用户可以方便的实现自动生成筛选器和自动排序,同时也可以自动生成相应的可视化图表。如果简单的图表无法满足需求,我们还支持在线编辑简单的查询语句和JS代码,这样可以实现更加复杂的可视化效果。

中国古旧地图开放协作整理计划,正式公开发布了

根据数据结构自动生成可视化图表

另一方面,则是我们在使用体验上的探索。从发现中国诞生的那天起,“左图右史”就是我们的目标。在这之前,我们通过在地图编辑器中尝试过左右图文对比,但并不成功。在地图书中,我们则大胆的采用三栏式设计,每一栏都可以显示和隐藏。我们允许自由调整左右栏的宽度,同时又对不同大小的屏幕做了适配。在台式机的大显示器上,适合三栏;笔记本上则适合两栏;而在手机上,将自动显示为一栏。比如你可以在左栏显示数据列表,右栏如果设置为“内容”显示模式时,你点击左栏的数据项,则会自动在右栏浏览和编辑。但如果你设置右栏为“地图”模式,那么当你点击左栏的数据项时,则会在左栏浏览和编辑数据和显示高清古旧地图,而右栏则可以显示现代地图来进行对比。

中国古旧地图开放协作整理计划,正式公开发布了

通过调整布局,可以在左右两侧同时显示古今地图

同时我们还推出了多套主题风格,再配合多栏的切换,地图书即可以是可视化的地图,也可以是一个数据浏览器,同时也可以是一个书籍阅读器,总之,让用户用起来更好用、更方便,是我们的孜孜不倦的追求。

有了技术上的准备后,如何进行有效协作,则是我们需要摸索的另一个问题。

要进行志愿者协作,一个明确的理念是项目的第一要务。我们把“开放共享”作为我们未来协作计划的主要理念。何为开放共享?我们接受任何有志于此、具备时间和能力的志愿者加入计划。完成后的结构化数据,通过CC-BY 4.0知识共享协议免费对外发布,原则上使用者只要署名即可用于任何用途。

中国古旧地图开放协作整理计划,正式公开发布了

根据查询语句和JS代码生成更复杂的可视化图表

第二个关键问题就是我们的目标。我们把协作人文地理基础数据作为主要目标。由于志愿者团队的性质,根据之前的经验,我们不会去做考证和原创,每个项目要么是搜集整理各种现存的资料进行整合,比如散落在国外各大图书馆、博物馆的中国相关古旧地图。或者以一些可靠的数据库和专著为依据,从大量文本信息中提取其中的地理元素等结构化数据。将一套几百上千万字的专著,归纳为一个可能只有几百KB大小的结构数据库,方便用户对其进行检索,了解其概览信息,并对书中一些配图进行矢量化。

在之前的探索中,我们主要将项目交给一个志愿者,希望让他自行组织来工作。然而在实践中,一个志愿者很难同时具备相应的业余时间、知识储备和组织能力。有时候志愿者也许连一个稳定上外网的环境都没有,又如何去寻找散落国外的几十上百GB古旧地图呢?另一方面,我们也参考了维基百科和开源软件的协作方式,但发现这些模式只可以部分借鉴,无法照搬过来。

在新的计划中,每个项目都在我们的严密控制之下,应该说从选题、方向、阶段目标等,大多都是由我个人说了算。之后采取高度分工合作的方式,志愿者团队中的开发人员对平台进行开发,文史专业的人员则负责内容整理。项目需要制定详细的文档,在文档的指引下,团队先进行内部协作尝试,总结出足够的经验后,再公开招募志愿者,进行更大规模的协作。我们并不会对协作者的具体经验和学历进行严格限制,实际上我们也很难去确认。只要愿意参加的志愿者,一般都能得到5条初始任务。每个志愿者各自负责一部分任务,互不影响。如果志愿者无法按时完成初始任务,我们会定期回收任务。如果完成的不好,我们不会派发下一阶段的任务。此外我们还会在协作过程中,不断总结问题,完善文档。

为了让目标顺利完成,我们对项目制定了分期路线图,每期只完成指定任务,不随意新增任务。比如有的志愿者在翻译过程中,参考了李孝聪老师《美国国会图书馆藏中文古地图叙录》一书中的资料,便提议将书中内容补充进来。不过我认为这固然很好,但半途新增比较大的目标,加重了志愿者的工作量。如果真要做,我们只能修改下一阶段的目标后,才能实施。但我们的路线图也将在完成上一阶段任务后,在下一阶段开始前进行适当调整,以保证一个互联网项目的灵活性。

光有技术和组织在我看来还是远远不够的。在现今各种垃圾无用信息充斥互联网,占据用户时间线的时代,在好的酒也怕巷子深。如果我们像之前那样,准备在完全搞好后才对外发布和宣传,对于如此漫长的计划来说几乎注定是要失败的。所以这一次我们将采取项目完成初期准备,即公开发布招募公告;数据完成一部分之后,就发布预览版本进行广泛宣传的做法。以此吸收用户和志愿者,同时争取必要的社会资源。

我们在这次的协作过程中,也陆续遇到相当多的问题,首先就是人员。应该说古旧地图是一个非常小的研究领域,国内从事相关研究的老师和学生并不多。虽然目前志愿者中不乏国内外高校历史、地理、历史地理、地信、测绘、城建、外语相关领域的学生和工作者,但却没有一个专门从事地图学史和古旧地图研究的人。而且许多志愿者缺乏古旧地图基础知识,他们有些会把国会图书馆上拼音名“yu tu”翻译为“于图”或者“余图”,把城厢写作城乡。看到《华夷图》即根据名称认为这是民族分布地图。看到禹迹图上的河道,就认为这仅仅是一副河流水道地图。而由于缺乏专业的指导,我们对于翻译术语表的规范也迟迟无法真正推出。

中国古旧地图开放协作整理计划,正式公开发布了

允许自由隐藏调整的多栏布局

其次,就是多人协作的标准统一问题。为了让大家直观了解地图的信息,我们设计了一个由志愿者自拟的一句话简介字段;为了方便检索,我们设计了一个由志愿者根据规则录入的标签字段。结果这两个地方成了重灾区,可谓一个人一个风格,甚至一个人就有几种风格。这导致了大量相似标签的出现,比如有的用清朝,有的用清代;有的用世界,有的用地球;有的用广东,有的用广东省;有的用区划,有的用政区;有的用北京,有的用北平。为了进行规范和指引,我们1.3版本的文档,已经比0.1版多了几倍的长度,但长度的加长,又让一些志愿者没有耐心仔细地读完或者没有充分理解,导致各种返工。在未来的版本中,我们可能会改变标签的编辑方式,从现在的自由输入,变成从统一的标签库中选择。

最后就是审核问题,由于缺乏合适的审核人员,目前我们的审核相对简单,主要看字段的填写是否基本符合文档中要求的格式,对于具体的翻译内容,并没有去对照原文确认质量。特别是项目会收录非常多的外国绘制地图,涉及日语、法语、俄语、拉丁语等语言,这一问题更加突出。不过由于我们完成一点发布一点的方法,数据可以接受使用者的反馈不来不断完善。

不过正式通过这些经验的积累,我们已经逐渐有了越来越成熟的方案。志愿者也在这一过程中成长,相信以后我们也会推出越来越多的开放协作项目,也会有志愿者来独立领导一个项目。在这之后,我们会陆续发布更多新的项目。新的“中国历史地图”项目预计于4月份发布,这个项目以整合OSGEO中国中心和台湾中研院的底图为基础,同时会进行部分矢量化。这样用户就可以直接检索地名,比发现中国现有的“中国历史地图专栏”更加好用。

之后我们会内部启动“中国古城地图”项目。这个项目主要依据王树声老师的18卷《中国城市人居环境历史图典》为基础,再结合其它一些专著,去除其中大部分文本,提取其中的古城目录等结构化信息,对地理位置进行标注。这些项目形态各异,也并不是个个都很庞大,有的可能还很简单,但却能实在的解决最基础的数据检索问题。比如我们花了三天时间,对照英国学者约翰·O.E.克拉克的《地图中的历史》一书,在国外各大图书馆网站中将书中大部分配图都找到了电子版以及收藏单位,这些地图多数都是进入公有领域的高清版本。

中国古旧地图开放协作整理计划,正式公开发布了

通过不同主题和多栏的结合,可以实现不同的效果,可以全屏浏览地图,也可以作为一个书籍阅读器

那么我们为什么要去做“开放共享”数据呢?从2016年开始,我们就陆续开始了和从事开源GIS软件、开放地理数据共享的OSGEO中国中心和开源WebGIS团队Maptalks的合作。也正是因为和这两家从事开源产业的单位的合作,以及多年来从开源社区得到的太多免费资源,让我希望从一个“伸手党”转变为“贡献者”。代码可以开源,自然地理数据可以共享,那人文地理数据为什么就不能共享呢?

不过一直以来,缺乏资源和资金一直是困扰我们的最大问题。一方面,我们愿景很宏大,中国也如此富强繁盛,另一方面,我们却经常需要为几百块钱的支出考虑再三,为如何节省服务器资源绞尽脑汁。发现中国从2015年上线以来,一直秉承着免费公益的原则在运营。随着用户和访问量的不断增长,提供制图服务的开发和运营成本节节攀升,因此我们从2016年底开始接受个人赞助,2017年底运营自媒体,2018年底开始和学校展开合作,2019年底接受企业赞助。就我们目前的开放协作计划而言,如果要持续推动,显然还需要比之前更多的人力和物力。

我们的力量终究是有限的,只有得到社会各界的广泛支持才能真正实现这一目标。我们希望有更多具有相关专业知识的志愿者加入我们,一起完成这一庞大的计划;我们希望和相关的单位和学者进行合作,可以共同发布结构化数据,或者将你的著作进行结构化;我们也欢迎企业和个人向我们的开放项目提供赞助和合作,地方政府对项目进行扶持。

最后,我们附上目前参与过项目编辑的人员名单(按目前实际申领数量排序),感谢他们的贡献。

怀旧、黔中小调、刘萍萍、无所可用、王二小、greart pang、餘弦INVERSE、赵沛尧、空格空格空格、映山红、太子龙小宣、六十的可乐、陈建红、听涛观澜、程晨、德尔 皮耶罗、翼尖小翼、AGING、一扬


作者:曹江

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。如发现有害或侵权内容,请点击这里 或 拨打24小时举报电话:4000070609 与我们联系。

    猜你喜欢

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多