分享

毛文涛丨写在“聚典数据开放平台”正式上线两周年之际

 星河岁月 2023-06-06 发布于江苏

内容来源:“中国新闻出版广电报”(2022年8月25日),作者毛文涛,系上海世纪出版集团副总裁。


何为“聚典”

 如果您是微信读书、掌阅科技的忠实用户,或者是起点读书、七猫小说的深度爱好者,抑或是上观新闻、澎湃新闻等新闻客户端的用户……在您阅读电子书、浏览新闻资讯的时候,或许已接受过“聚典数据开放平台”(以下简称“聚典”)提供的便捷温馨的服务:在阅读的过程中,遇到不认识的汉字、不理解的词语、把握不住的知识点时,移动手指触点屏幕、拖动光条,选定对象的内容信息就会在请求发出之后的200毫秒内呈现在您眼前。这就是“聚典”最为经典的应用。

 “聚典”是上海世纪出版集团规划设计、上海辞书出版社研发运营的一款新型互联网数据服务,该产品概括而言,就是:

01

 聚合权威工具书内容,对词条作最大程度的细粒化处理之后进行结构化加工、云端存储,所构建的一个系统、可信的知识数据仓库;

02

 通过标准化的数据接口,以API(应用程序接口)方式向合作伙伴(B端客户)开放库藏数据,许可进行合法授权访问;

03

 通过合作伙伴的各类应用,将库藏数据及时动态载入,嵌入各大阅读App、新闻客户端和搜索引擎,以响应和解决不同应用场景、不同用户群体(C端用户)在阅读过程中的查检需要;

04

 用户的检索需求及时反馈到“聚典”平台,为进一步完善库藏内容、提高服务质量,提供有效来源,构建有效通道。
图片
图一 聚典数据开放平台示意图

“聚典”的特点

 “聚典”可谓十月怀胎一朝分娩。这一构想大约萌发于2018年年初。当时,上海世纪出版集团及旗下上海辞书出版社正着手推进《辞海》网络版这一重大项目的建设,目标是“让《辞海》更好地服务互联网时代的读者”,同时也谋划借助这一个重大项目的实施推动因数字阅读、移动阅读的发展而备受网络百科、搜索引擎挑战的传统工具书出版,实现“整体转型”。

 基于这一使命和布局,在全面分析思考数字出版的规律并紧密结合上海世纪出版集团优势出版领域的基础上,在剖析总结过去的经验教训基础上,我们认为“立足自身,开放合作,数据服务”是传统出版社推动出版数字化融合发展的必由之路。如何兼顾内容生产和内容服务,在聚合内容、融合场景、整合产业链资源的基础上,形成新的建设、运营模式和更有效的产品服务方式,一直是我们研究思考和寻求突破的关键所在。

 重新审视数字时代工具书出版的基本属性和功能定位,让工具书在数字阅读环境中更好地发挥其“工具”特性,可以“随身携带”“随时使用”,通过广泛深入的产业调研和需求对接,在集团数字出版“分类聚合 平台运营”整体发展思路的统筹下,我们逐步形成了工具书数据开放平台的产品模式构想,即打造一个依托上海世纪出版集团下属各出版社丰富且权威的工具书出版资源,通过赋能B端客户进而满足C端用户(读者)数字阅读过程中的查检需要,内容集成、场景泛适、整合上下游资源,为行业和读者的阅读、学习、搜索多向赋能的开放性知识应用平台——“聚典”。

01

 “聚典”有效整合数字出版产业链资源,充分发挥产业链上各参与主体的优势,协同合作形成服务新模式和发展新动能。“聚典”的实施,可以让出版社依托专业的编辑、作者和专家团队,主要致力于持续生产系统、可信的知识内容,让应用开发企业和机构充分发挥产品设计、产品营销和服务的能力,合力共建、合作共享,共同服务于广大读者。“聚典”可以服务于数字阅读、新闻客户端、搜索引擎;可以对词典笔等智能硬件提供数据服务;还可以根据应用方的需要设定查检优先级,提供定制化的数据服务。在一定程度上,“聚典”改变了传统的内容授权模式,革新了数据分发方式,对数字阅读产业链上不同主体的职能重新进行分工,兼顾、维护了产业链相关方的利益诉求,可以说是一种比较平衡、有效、可持续的合作模式。

02

 “聚典”有效聚合各类优质工具书内容资源。工具书一般以词条为单位组织内容,其知识构成和呈现形式具有较强的适配性和标记性。“聚典”通过市场化手段,与集团内部和外部的相关出版机构开放合作,选择、聚合各类优质内容资源,结构化加工后构建系统的、标准化的云端数据仓库,并持续进行完善和升级。同时,工具书数据具有通用性,“聚典”模式也可避免各个合作机构对同类数据的重复生产、加工,减少了社会资源的浪费。

03

 “聚典”有效融合不同的应用场景。“聚典”实现“屏幕取词,释义立现”,将查检需求完全融于阅读过程中,查检知识的同时保持阅读活动的连续和流畅,大大提高了查检的效率和用户的阅读体验,实现“即查即得”。“聚典”采用API通用接口模式制定数据标准并分发加工好的数据,用户在阅读软件选词查检时,“聚典”将库藏数据及时动态载入,目前已经实现了在App、微信公众号和小程序中的数据调用,也实现了向搜索引擎、词典笔等智能硬件设备输出数据服务,在4G、WiFi环境下可提供小于200毫秒的快速响应。应该说只要用户有查检需求的场景,几乎都适用“聚典”。

04

 “聚典”为产品的高效持续运营提供有力的数据支撑,为工具书出版和数据内容生产提供了一种不断完善,不断提高的有效机制。比如当前库藏缺失、用户查检需求未得到满足时,“聚典”会及时捕捉到该信息,在分析判断确需增补后,通过在线协同编撰系统启动编辑流程,以较快的速度完成有关内容的撰写、编辑和出版过程,及时响应用户的需求,从而使平台内容数据不断充实完善。

“聚典”的建设

 2018年,“聚典”的构想逐步形成,在与多家互联网企业就这一合作模式进行深入沟通和需求对接之后,又进一步强化了我们对打造工具书数据开放平台必要性和可行性的认识,“聚典”模式日趋明晰。2019年初,建立起了验证性实验系统。2019年8月上海书展期间,上海辞书出版社与掌阅科技签署战略合作协议,标志着这一构想首次落地实践。经过一年的试点和产品迭代,2020年8月13日,“聚典”正式发布上线,迄今整整两年。

 两年来,在内容建设方面,“聚典”以《汉语大词典》《现代汉语大词典》为汉语字词基础、以《辞海》《大辞海》为百科基础,逐步拓展到《哲学大辞典》《教育大辞典》《心理学大辞典》《中药大辞典》《英汉大词典》等专科、双语领域,还进一步扩充了《中国古今地名对照大词典》《中国历史纪年表》《中国历代职官别名大辞典》等,形成了学科覆盖比较全面、入库100多种工具书、总计300多万条各类词条的工具书数据仓库,一站式数据服务体系基本实现。在技术建设方面,“聚典”以API模式提供应用服务起步,之后为应用方开发便利以及数据安全之需要,逐步升级到SDK(软件开发工具)模式并不断迭代,形成了一套较为完整的技术解决方案:一是实时加密,保障了核心数据安全;二是优化算法,使服务响应控制在200毫秒以内,保证了服务质量;三是动态升级,保证并发访问冗余;四是系统集成,完善服务,便于上、下游合作伙伴及时分析了解业务动态。

 两年来,“聚典”不断拓展应用范围,已与20多家各类应用开发商建立了合作,为数字阅读、新闻资讯、在线搜索、数字图书馆、智能词典笔等提供数据服务,累计为超过2500多万读者提供了数亿次知识查检服务,成为一个月活用户数达500万的互联网应用。

图片

图二 “聚典”2022年总用户数(人)增长曲线

图片
图三 “聚典”2022年月活用户数(人)
图片

图四 “聚典”2022年日访问量(次)曲线

 回顾“聚典”的建设过程,我们努力开拓创新,主要解决了优质版权资源的有效聚合问题、产品和服务的持续迭代发展的问题、商业模式的可行性问题以及市场空间的可拓展问题等。

01

 机制创新:在探索数字出版、推动出版数字融合发展的过程中,很多出版单位都理性地聚焦于自身优势出版领域,但我们也发现,面对海量内容需求的互联网应用,即使是有长期历史积累的出版社,也都面临着优质出版资源不足、聚集效应不显著的问题,同时,整合其他出版社的优质资源的工作也往往难以推进。为解决这个难题,我们的做法是选择最有实力和最具代表性的出版社作为实施主体,通过一定的制度安排,以市场化方式推动集团内出版社之间优质出版资源的交叉授权,促使集团内出版资源的分类聚集,并逐步吸收集团外其他出版社的优质出版资源,最终形成一个整体解决方案,解决垂直领域的数字化转型。

 上海世纪出版集团一直以来都是国内辞书编纂出版的高地,拥有众多品牌辞典,涵盖了汉语语词、双语、百科辞典等各个领域,为此我们以上海辞书出版社为实施主体,精心设计“聚典”的商业模式,推动集团内各出版社优质工具书出版资源向上海辞书出版社聚集,合力将“聚典”打造成在入库数据量、学科完整性、内容权威性、服务广泛性等方面全国领先的工具书数据开放平台。

 在这个聚合过程中,“聚典”始终坚持系统导向、质优导向、需求导向。系统导向是指要覆盖全面、学科齐全,字、词、百科词条都要收录,双语互译、古今对照都要覆盖。质优导向是指“聚典”聚合的是领先、优质的,经过市场检验获得高度评价的,具有权威性的工具书,这也正是“聚典”与网络百科最大的区别。我们为用户严把质量关,过滤掉不可靠的内容信息,在扩大平台数据规模和为用户提供准确内容间达到平衡,让用户既能“有问必应”,又能“有应必准”。需求导向是指在建构“聚典”内容体系的过程中,优先聚焦用户需求,采取逐级分步建设的方法,先汉语后双语,先大众后专业;同时,对词条数据进行细粒化加工,以满足不同用户对释义、书证等取舍的不同需要,使得“聚典”具备很好的适应性。

02

 组织创新:“聚典”的建设是一个长期持续的过程,需要编辑人员、技术开发人员、数据分析人员、运营人员等的协同。在数据结构化加工过程中,要根据数字化应用场景的要求,优化工具书选词立目的规则,优化原有的工具书参见系统等,这些工作需要编辑人员与数据加工人员、产品开发人员共同研究实施;在落地应用环节,需要运维人员和开发人员在数据标准和代码实现等方面合作推进。这些工作都迫切需要一支独立的,建制完整的,覆盖编辑、技术、运维和数据分析处理的团队。 “怎样对待技术以及怎样进行有效的技术管理?”,这是一个长期困扰传统出版人的问题。在传统出版社数字化转型的过程中,对待数字技术的应用有两种极端的倾向,一是技术恐惧论,二是技术无用论。技术恐惧论认为出版人对数字技术不了解不掌握,不知道怎么利用好它,甚至不想直面它。技术无用论则认为技术问题外包给技术开发公司即可,很简单。与国内出版单位通过与信息技术企业开展项目合作、以技术外包方式来推进数字化形成鲜明对照的是,国外出版公司在推进数字化转型的进程中,非常注重对新技术的把控,或自建或通过收购IT企业的方式组建内部技术团队来大幅提升自己的技术能力。这其中的差别,很值得我们深思。在发展“聚典”的过程中,我们在初始验证阶段借助了外部技术公司的力量,快速完成了实验系统的开发建设,在这一过程中,我们强调同步形成完全独立于外部技术公司的开发团队和开发能力。这一设想得到很好的执行,并在“聚典”正式上线时形成了出版社自己独立、完整的技术队伍和开发能力,之后的所有迭代都由该技术团队完成。同时,在这个过程中,也锻炼、培养了出版社自身的技术管理能力。事实上,对项目建设实施有效技术管理是须要高度重视的一个方面。

03

 模式创新:从商业模式上看,“聚典”不是典型意义上的B2C模式,也非典型意义上的B2B模式,而是独特的BBC模式。确切地说,在商务流上是B2B模式,在数据流上是B2C模式。怎样选择以及选择怎样的商业模式,是影响传统出版单位发展数字化业务的一大问题。商业模式的设计和创新是“聚典”得以快速发展的根本。BBC模式很好地解决了读者在数字阅读过程中的痛点,提高了阅读效率,改进了阅读体验;很好地平衡了各方利益,C端用户无需付费,B端客户付费得到增值服务,在增加用户粘性的同时,无需进行大规模数据加工从而极大节省成本。“聚典”在总体上创造增量价值的同时,通过制度的设计很好地平衡了增量价值的合理分配,让各方都分享到其中的一部分,调动了参与各方的积极性。

04

 产品创新:不同于网络百科,“聚典”聚焦于词条短释义的移动应用,提供与网络百科差异化竞争。应该说,“聚典”是一个集成创新的产品,其中的每一项技术似乎都是成熟的,“屏幕选词 释义立现”的应用场景在PC时代已经出现,但在移动阅读时代,在4G、WiFi网络环境下,开放的数据服务模式成为可能。同时,提供一站式服务能力的网络化应用而不是将数据都加载本地智能设备上,减轻了对本地存储的压力。“聚典”最早应用到电子书阅读中,目前已经拓展到新闻资讯、在线搜索和词典笔等应用和设备之中,场景越来越多,相信将来会有更为广泛的应用。

05

 技术创新:从技术层面讲,我们的总体考虑是:“聚典”从API模式起步,发展到以SDK模式为主,将来逐步解决AI推荐问题。这是一种渐进式的、实事求是的演化路径。API模式首先帮助我们解决数据采集问题。传统出版社只能模糊了解到读者大概是谁、读者可能在哪里,但是基本不知道究竟有哪些读者、读者在看哪些内容或对哪些内容有更多的需要。“聚典”通过API模式很好地解决了出版社与读者之间的连接问题。在解决数据采集的问题之后,SDK模式进一步解决了数据安全问题。内容资源是出版社的核心资产,确保数据服务过程中的数据安全是重中之重的事情,这就需要通过加密SDK来解决。未来,还需要解决数据智能问题。为了进一步提高查得率、查准率,改善用户体验,AI推荐是必然的发展方向。可以说,技术不断迭代演进是“聚典”持续发展的核心力量之一。

“聚典”的未来

 “聚典”在解决读者数字阅读过程中知识查检痛点的同时,也为工具书出版提供了一套数字化转型的整体解决方案。“聚典”要继续加强“一体化融媒体编辑能力、门户级用户响应能力、技术驱动知识服务能力”这三种能力建设,不断朝着一个完备的、自激励的数字出版生态系统发展。内容建设方面将进一步加强资源整合力度,广泛聚集优质工具书内容,同时加强查询落空分析,加强数据挖掘,及时增补完善漏收词条,不断充实更新急需的新词新语;技术上,在不断完善API数据标准、改进和完善SDK开发工具的基础上,逐步解决知识查检的智能推荐问题;在商业上,进一步拓展使用场景,大力覆盖各类数字化应用。未来,“聚典”要逐步形成一套数字化工具书开发和应用的范式:研究形成新的数字化工具书选词立目理论,研究形成新的数字化工具书数据规范和标准,研究形成新的数字化工具书应用场景和模式,研究形成新的数字化工具书开发技术和应用技术。

 长远来说,希望“聚典”能够像电力、自来水那样,无论何时、何地、何种应用场景,都可以在读者需要的时候以最为快捷、方便的方式甚至无感地为读者提供完美的知识查检服务。它可以是“屏幕选词、释义立现”,也可以是默默藏身在各种搜索引擎、智能硬件背后。我们希望“聚典”能够立足于海量的数据信息、准确的知识内容、优秀的产品服务,在数字时代持续发挥知识服务的更大功效。

 以“为阅读赋能,为学习赋能,为搜索赋能”为使命的“聚典数据开放平台”正式发布上线两周年了。两年来,“聚典”度过了蹒跚学步的艰难,看到他即将奔跑起来,我们既为过去四年来的艰苦探索感到欣慰,更对“聚典”广阔的未来寄予热切期待。

更多合作产品正在对接中,敬请期待。

如果您也有APP需要接入聚典服务,欢迎发送邮件至support@cishu.com.cn微信后台留联系我们。

END

题图/排版 |  汪頔頔

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多