大数据背景下的畅销书选题技术操作

累积大量用户资料所产生的大数据，使曾经深藏于用户心中，甚至连用户自身也并不十分明白的偏好，变得不再是秘密。许多媒介渐渐可以根据长期累积的用户数据，投其所好地为受众打造“定制”的内容。在传媒领域近年最常被提及的案例，莫过于从出租影片DVD业务起家，近年靠着其累积多年的庞大用户数据，成功由内容通路商转型成内容制造商，并靠着一系列畅销原创作品成功跻身于好莱坞新六大影视公司的Netflix。显然大数据最大的贡献并不只在看清过去和现在，或者说利用大数据看清过去和现在的目的是能成功地预测未来。处身于大数据时代背景下的出版行业，是不是也能在有限的资源下借助大数据的力量，帮助编辑更有效率地提高打造畅销书的概率?这是本文关心的问题。

笔者尝试以自己在出版社企划编辑岗位上的工作经验，站在单一编辑的立场去思考和实验，在选题工作环节中可以利用大数据优化的方法，并以资料取得成本低廉及分析操作简易为原则，结合图书市场情况做出说明，最终希望可以帮助每位编辑加速选题效率及提升打造畅销书的概率。

一、严选畅销书的权威大数据

维克托·迈尔-舍恩伯格和肯尼思·库克耶（Viktor Mayer-Schnberger & Kenneth Cukier）的著作《大数据时代——生活、工作与思维的大变革》（Big Data：A Revolution That Will Transform How We Live， Work and Think）中，将大数据总结为四个特征，分别是volume（数据体量巨大）、variety（数据类型多样）、velocity（处理速度快）和value（价值密度低），并指出大数据是一种通过对海量数据进行分析，获得有巨大价值的产品、服务或深刻洞见，最终形成变革之力。[1]2008年《自然》（Nature）杂志出版的专刊中大数据的定义是：数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据。美国麦肯锡咨询公司（McKinsey & Company，以下简称麦肯锡）在其报告《大数据：下一个创新、竞争和生产力的前沿》（Big data: The next frontier for innovation， competition and productivity）中对大数据的定义是：大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集，并指出大数据将掀起社会下一轮的变革。[2] 显然“大数据”到底要多大并没有一个明确的定义。

现今在大数据的时代背景下研究者可以不再采取传统的抽样推论方式对数据进行分析，而是可以取得全部的数据来做分析，并画出每个样本间清晰直观的关系图。目前直接与图书相关较为全面且最权威的数据，当属北京开卷信息技术有限公司（以下简称开卷）从1998年开始建立的“中文图书市场零售数据连续跟踪监测系统”所累积的数据，但多数数据的取得都需要收取费用，且该数据观察的对象主要是实体书店销售量，面对目前愈来愈多的线上购书行为，网络书店的销售数据已经成为更重要的数据。另一方面，即便出版社有能力付费使用该系统的数据，该系统呈现的数据也是几种固定分析方式出现的结果，数据库既定的功能选单明显地限制了编辑使用自己的专业经验与角度去观察和分析这些珍贵的数据。因此编辑有必要找寻更接近市场的大数据，且培养取回分析数据的主动能力。

但现实并不存在收集到所有读者消费行为数据的可能性，因此就只能选择所在地区最具代表性、且可取得的数据做分析，在国内当当、京东、亚马逊等主要网络书店的销售数据，应该是目前较具代表性的图书销售数据。当然，也可选择合并两家以上数据的方法，以求得更全面的资料，但由于每家网络书店的数据栏目不尽相同，在处理数据时就会比较复杂，尤其会出现两平台数据分类标准不同无法合并的问题，因此除非技术可以克服，一般编辑实际上可能无法操作。

挖取数据的操作方法，首先可通过VBA软件设计程序（也可使用Python数据挖掘工具），将网络书店上编辑认为有需要的所有栏目，如书名、作者、出版日期、定价、ISBN、畅销榜排名等数据，全数下载成excel文档，并以人工方式大致浏览下载后的数据是否正确，为数据分析做好准备。下载数据的程序技术含量并不是太高，若不能通过自学了解，可请懂计算机编程的个人或专业公司服务，收费视所需下载栏目多寡和对自动化功能要求程度而定。编辑只需把自己需要的资料栏目清楚告诉程序设计员即可。本研究下载栏目包含书名、图书类别、畅销书排名序号、作者、售价、出版时间，下载收费约人民币一千元，即可取得包含上述资料的excel数据档案。这样的成本不论是公司或编辑个人都还能负担得起，且可以供多人不断重复使用。

二、掌握各类畅销书基础概率

从20世纪40年代就开始发展的“使用与满足”理论，把受众看作是有着特定“需求”的个人，并把人们的媒介接触活动看做是基于特定需求动机来“使用”媒介，从而使这些需求得到“满足”的过程。1974年卡兹（E.Katz）等人在《个人对大众传播的使用》（Utilization of mass communication by the individual）一文中，更进一步将媒介接触行为概括为一个 “使用与满足”过程的基本模式，其间受众被视为一个有主动选择信息能力的对象。现今以市场为导向的图书选题策划，正是为了满足读者的需求而问世。因此，要提升编辑打造畅销书的概率，首先得了解目前读者最喜欢购买的图书类型，成功的概率才会最大。

从网络书店下载的excel数据表，就可以轻松做到对每类进入畅销书榜图书概率的基础观察。利用网络书店每月畅销书数据表，对“图书类别”栏做出排序，分别加总每类畅销书入榜数量，进入畅销书排行榜总数量愈多的图书类别就是最畅销的图书类别。但显然这样的分类观察还太粗放，就再用图书类别的次分类排序，如此就能观察到更细化的畅销书类别市场。举例而言，经济情况良好时，财经类图书几乎一定能成为畅销书种，但通过次分类以同样方式再分析，还能进一步发现财经类图书又以股票类的财经书最为畅销。而若要知道自己负责的图书类别在畅销书榜上的市场占比，则可以用下载的excel文档中的“出版时间”先限制观察时间段，再以该段时间内全部或选定书种的累计总数为分母，欲观察书种累计总数为分子，即可得知。这个资讯能使编辑了解某特定种类图书的市场竞争状况，也就是一定时间内有多少同类书在市场出现，和你一起竞争读者的关注。

编辑当然很想更进一步知道畅销书榜上的个别图书到底卖了多少本，但显然目前并未见有任何网络书店会公开每本书的销售量。要解决这个问题，编辑只要以自己已出版的图书销量为基准，参考畅销书榜上的图书排名就能上下推估，大致了解某类图书登上畅销书榜的数量。这无疑是对市场需求量的估计，而图书首印量的精准估计对图书制作成本的控制显然有直接帮助。对不同图书种类基础概率的了解，无疑能降低编辑选题策划时的主观盲目性，编辑如能做到心中有数，自然从而能提升选题成为畅销书的概率。[3]

三、畅销书的形式和主题分析

一旦知道主题类型或次类型畅销书的上榜概率，任何人都能发现同类型图书中总有卖得好，也有卖得差的书，其中图书内容的表现形式会是一个关键，或者说读者喜欢一本书的原因，通常并不是因为类型，而是内容及表现方式的综合表现。对畅销书榜上图书类型的观察只会让编辑了解不同书种进入畅销书榜的基础概率，但图书内容及表现方式才是一本书可以成为畅销书的关键因素。早在1956年市场细分（Market Segmentation）的概念就由美国营销学家温德尔·史密斯（Wended Smith）提出，后由美国营销学家菲利浦·科特勒（Philip Kotler）进一步发展和完善成为成熟的STP理论（市场细分Segmentation、目标市场选择Targeting和市场定位Positioning）。今日图书市场的经营也是遵循相同的营销战略，在社会快速发展的环境背景下，读者需求日趋多元与细化，图书市场愈来愈重视精耕小众市场，对数据的分析愈精细，对编辑在选题判断时的帮助显然也会愈大。

(一)深挖读者评论，满足读者需求

要细化市场时，网络书店上读者的评论应该是最直接且具有参考价值的数据。当当和京东网络书店对于读者评论的分类，都有类似的好评、中评、差评、晒图的等级分类。但这种分类对于编辑探寻畅销书畅销的原因帮助并不大。网络书店上通常还有另外一种分类，以长踞财经类畅销书排行榜的《有钱人想的和你不一样》一书为例，当当网将该书的读者书评利用人工智能自动分成“通俗易懂”“观点独特”“实用”“可操作性强”几类，这是平台针对该类图书读者购书因素做出的分类，分类后面的数据是该类读者评论数量的累计数据，但目前并不能在点击分类标签后，带出该类的所有读者评论文本。因此，对编辑的选题细化工作虽稍具启发，起着大致了解读者选购该书主要原因的作用，但也仅此而已。利用网络书店现成评论分类的好处是省钱、快速，但网络书店默认的读者评论分类对编辑在选题策划时所需信息，是否适用或够用会是最大的问题。

如果要更深度地利用这些读者评论数据，最好的做法就是利用数据挖掘软件挖出这些评论文本，再自行对下载的文本做出对编辑自己有意义的评价分类。但观察大型网络书店的图书评论，如当当、京东、亚马逊等网络书店读者的评论，很多编辑可能是要失望的，主要是网络书店的读者评论通常比较简单。因此，编辑若要分析读者评论这一部分的资料，建议选取类似豆瓣这样的读书社群网站的读者评论。这类社群的成员因爱书而群聚，通常对图书有较深刻的评论，因此取出来的评论资料对编辑在选题策划时产生的作用也会比较大。以现今读者为导向的市场规律，对于读者评论的观察与分析，可能会使编辑获得巨大的收获，不仅可以更全面地了解读者需求，还能促发未来策划选题的方向。

(二)结合编辑经验，多角度分析数据

如果编辑确实没有能力针对读书社群网站或文本做更细致的分析，其实人工分类也并不是一件如想象中辛苦的事情，因为通常畅销书都会长期出现在当年每月的畅销书榜上，因此即便是以人工分类，对一位专业编辑而言，这也绝对是件愈做愈顺手的事情。且最重要的是人工分类是编辑切实亲自观察过该书后，所做出的最适合自己的图书分类方式。此处以心理励志书作为观察对象说明，本研究以表现形式和主题内容两个维度来观察图书。在表现形式上将畅销书榜上的心理励志类图书分为散文体、小说体、个人经验分享、提出理论架构等，在主题内容上分为解决行动力问题、解决负面情绪、解决特定问题、澄清人生观等，当数据分类完成，就可以交叉分析出主题和内容搭配的关系，看看怎样的表现形式和主题内容的搭配最“举世无双”。

若编辑还更有心想知道不同表现形式或是主题内容在畅销书榜的销售力，那就找出每本书在畅销榜单上的排名，加总排名序号后除以上榜本数得出平均排名，如此能有更细致的发现。举例而言，两种不同表现形式和主题内容搭配的图书也许登上每年TOP100畅销书榜的数量都是10本，但两种图书各自上榜的10本图书在畅销书榜上的排名并不会完全相同，算出平均排名后就会发现有高低的差异，这显现了不同表现形式和主题内容搭配的图书在畅销书榜上的销售贡献度其实是有强弱差别的。如有需要编辑还可以尝试做做统计分析，如卡方分析、回归分析等，从而得出畅销书主题内容与形式的搭配模式。总之只要能取得数据，要怎样分析数据并没有定法，分析的方式正是编辑经验的具体化成果。

(三)利用人工智能，提升工作效率

大数据的运用重点最终是在数据长期及大量累积后所展现的意义，借助智能学习取代人工分类必然是终极目标。目前有不少可以提供类似人工智能服务的公司，但费用并不便宜，实际向Google Cloud Played询价结果，光是400笔数据的智能学习费用就高达人民币16.5万元上下，而人工学习的数据自然是愈多愈能达到正确的结果，显然建构这样的智能学习功能的成本并不是单一编辑所能承担。1937年，英国经济学家罗纳德·哈里·科斯（R. H. Coase）于《企业的性质》（The Nature of the Firm）中首次提到交易者通常忽略的“交易成本”（Transaction Cost）概念。[4]现实中，当交易成本过高时，尤其是单一的编辑，似乎只能放弃，不可能为了穷尽所有需要的信息，付出过高的交易成本。但对一些有心长远发展的出版企业而言，这样的投资却是有意义的，因为只要智慧学习成功，以后就能依照编辑的需求对畅销书排行榜上的图书做出有针对性的自动分类或文本分析，大大缩短了编辑对畅销书情况做出基础分析的时间。[5]

四、利用文本探勘发现畅销书的“小秘密”

编辑如想要分析特定畅销书的文本或更多社群软件上读者的评论或讨论内容，利用文本探勘工具也是可以做到的。操作方式也是使用现成的数据挖掘软件如Python或委外编写程序，先取出所有读者评论的纯文字文本文件，如果只是想大致知道读者评论中最常出现的字词，可以将取出的某类或某本书的读者评论直接丢入各种免费的文字云线上软件，从文字云中字词的大小就能直观地看出读者评论关注的焦点，显然这也应该是编辑在选题策划时重视的焦点。但如果想要做进一步的“定制”分析，就需要利用一些专业的分析软件或平台才能做出更吻合编辑自身经验与所需的分析。

编辑要利用许多现成且免费的软件或平台来分析，首先要做的是将下载的文本文档格式转换成专业分析软件或平台能接受的档案格式，才能成功将档案导入该平台，利用该平台上的分析工具来分析。以下举例说明，上述文字云大小文字的背后其实是词频的展现，但现成的软件编辑并没有办法控制断词，也没有办法了解确切的字频，或选择仅以自己在意的关键词作为观察或比较对象。此时，可将挖取出的读者评论文本，上传至MARKUS [6]或Text annotation for Human [7]等文本标记工具平台 [8]，标记出自己适用的关键词，将标引后的文本文件存至计算机，之后将档案导入Docusky这个数位人文学术研究平台，就能利用该平台的分析工具，如：“字频统计”“文本风格分析”等功能，对最常出现的词语、不同作者、不同图书的全文风格做出直接比较，或是运用“词夹子”分析工具，对文本做出更深度的语法结构分析，且当累积观察资料的时间够久，还能看到受众偏好的变迁，[9]这些正是大数据的魅力所在。导入的数据愈齐全，编辑得到的分析就愈接近市场的真相，通过自动化比对或多种分析工具的协助，极有可能让编辑发现更多大众畅销书的“小秘密”，这些以大数据为基础分析出的资讯，提供的是一种科学的鸟瞰图书市场全貌的视角，这是再勤快的编辑都没法发现的事情。大数据和自动化为编辑提供了更方便探寻畅销书秘密的路径与工具。

没有人能够知道确定的未来，但通过数据累积和经验我们能对未来更有把握，这也是大数据利用最大的意义。就像买基金和买股票一样，每个银行的理财专员或财经专家似乎都能信誓旦旦地告诉你未来的财经趋势，他们的自信正是来自于背后累积数十年的庞大数据的支持，以及与大环境参考指标对照得出的推测。同样的，只要数据累积够多、够完整，通过编辑的专业分析，编辑也能对畅销书做出自信而精准的预测。此外，用人工智能快速累积的数据库，不仅能提高编辑选题策划的效率，也同时起着快速培养出版社内部新进人员图书编辑策划力的作用。

五、善用“热搜词”探寻未来畅销书选题

过去的编辑是库尔特·卢因（Kurt Lewin）所说的“把关人”（gatekeeper），只有符合编辑要求，符合出版标准的书籍才能进入图书市场。全媒体时代是更偏向以受众需求为导向的时代，优秀的编辑不能仅仅是对图书内容或选题进行被动的把关，还要有主动探知市场风向、领先捕捉畅销选题的能力，此时可能更多要考虑的是社会整体的未来发展趋势，而不只是已经发生的图书销售数字信息。好的选题总是能引领市场潮流，而不仅仅是跟随潮流。如何抢先发现未来可能受到读者欢迎的选题，可能是编辑要面对的更重要的问题。这时编辑的搜寻数据，就建议从上述与图书销售市场相关的后期指标，转向网民的“热搜词”这类更能反映社会大众即时关注点的前期指标做观察，如此才能更真切地了解未来社会趋势，抢先一步成功预测未来畅销书选题。

(一)通过多种比较，看清未来趋势

此处以大家都可以免费使用的“360趋势大数据分享平台”（以下简称360趋势）为例，并模拟编辑的选题过程展开论述，说明编辑只要结合自己的编辑经验，以自己的观察角度善用大数据平台所提供的功能，就能对未来畅销书的选题做出更科学的预测。本研究以策划美食相关图书为例，先在360趋势搜索栏键入“美食”这个关键词，此时在“变化趋势”下方看到“关注度”及其环比、同比的上升或下降情况，“关注趋势”下还可选择时间、地区了解该关键词在特定时间段内互联网上用户查询的平均值状况，这些意味着该平台用户在特定的时间段、特定的地区对于此议题的关注程度。通过多次的比较观察，可以发现不同主题在不同时间段及地区受欢迎的程度，并藉此来限缩或选择对自己最为有利的目标市场。

除了关注自己的选题，编辑在执行选题工作时对竞争者的观察也是重要的功课。此时编辑可以多增加几个假想敌的关键词，与自己选题的关键词作比较。以360趋势为例，该平台不会向用户显示确切的流量数据，只能看到不同关键词的流量图形，但编辑仍可以运用该功能做出对畅销书选题的市场预测。做法是将一本已经出版、自己又知道实际销售量图书的关键词与新书选题的关键词同时做出搜索，就能从两个关键词的比较图形中清楚看到人们对不同议题的关注度。若是在“关注趋势”搜寻结果发现，已经出版图书的关键词搜寻水平远高于新选题的关键词，且已出版的图书销售量并不好，新选题的关键词搜索趋势又未呈上升趋势，那很显然这本新书的选题就不容易成为畅销书。反之，则机会明显大得多。

(二)通过强弱关系，推敲选题方向

了解趋势固然重要，但做选题策划时编辑还需要细化选题，如要进一步了解关注“美食”这个议题时，人们都在谈论哪个面向的话题，这时观察“需求分布”下方的“关注美食都关注”，该栏目通过对平台内的大数据分析，清楚呈现出用户搜索的不同关键词与“美食”此一关键词间关系的强弱。关键词关系图为编辑提供了在策划“美食”相关书籍时，再细化选题时的方向指引，与“美食”关系较强的关键词，也就是关注美食的人谈到美食时最常谈到的话题，如看到关系较强的“供货商”“运动”“菜谱”等关键词，编辑就可以合理判断食品安全、减肥餐、各类菜谱等选题的图书成为畅销书的概率可能会更高。目前360趋势的每个词语都链接了360搜索，编辑点击任一关键词就会直接跳转到360搜索页面，带出全网海量的搜索及社交媒体数据，非常方便编辑对感兴趣的数据做更进一步的了解与分析。搜寻结果同时还会出现“美食的相关排行”和“相关搜索词”两种排序。“相关搜索词”下的“搜索飙升词”会显示上升最快的相关搜索词，可了解重点关键词的近期搜寻热度。在“搜索飙升词”栏排序在前的主题就比较有成为畅销书的可能，如果已到下坡段则应该考虑放弃这个方向的主题，向其他方向去策划美食图书。

在大数据时代背景下，类似这种能做出趋势观察的平台并不少见，如谷歌趋势、百度指数及新浪微指数等。这些免费大数据平台上获取的数据和图书选题策划看似并没有直接的关系，且极有可能使用者搜寻热度高的议题，并不能完全直接转化为使用者对该类选题图书的购买行为。但相较于以往编辑在选题策划时搜集的静态资料或图书销售数据等市场后期指标，这些通过互联网用户“热搜词”累积的大数据，在一定程度上更能协助编辑对外部环境的大趋势做出更即时、更有效率、更科学的观察。编辑如能通过自己的编辑经验，并熟悉平台上各种功能的操作，通过设置适当关键词搜寻，以及利用对时间、地域等的限缩、比较或筛选等功能的操作，当能增强选题工作的效率，并得出对选题策划工作有重要参考价值的信息。

六、读者用户面貌大数据的缺失与局限

前述开卷“中文图书市场零售数据连续跟踪监测系统”所累积的数据，虽为目前国内最为权威的图书数据，但该数据来源主要为全国2000多家实体书店数据，近年虽已纳入20多家网上书店数据，但对几个重要网络书店当当、亚马逊等的数据仍并未纳入，在读者日益仰仗线上渠道完成购书行为的数字时代，线上图书销售数据的缺失，无疑将使得该数据对图书市场零售数据的代表性有所消减，且开卷握有的只是图书本身的产品资讯和市场讯息，对于用户的面貌并无法得知。1941年B.R.贝雷尔森（B. R. Berelson）等在《读书为我们带来什么》（What reading does to people）一文中，就将性别、年龄、学历、职业等因素作为控制变量，尝试发现不同特性的读者使用与满足行为的差异性。面对今日细分化的图书市场，除了对图书已有销售数据的分析，编辑显然必须更清楚自己所面对的目标读者面貌，才能为读者量身订做，打造出成功的畅销书。

(一)用户资料与取得交易成本的抉择

目前能取得读者用户数据的就是各种线上图书销售平台，如当当、京东、亚马逊等网络书店，因为所有的搜索记录、消费行为和个人注册信息，都会被完整地保存在网络书店的后台，但目前这些网络书店都未开放这些数据供一般大众阅览，[10]主要原因是网络书店扮演的其实是线上图书经销商的角色，重点是从图书销售行为中获取销售佣金，用户信息某种程度上正是这些网络书店赖以为生的秘密，当简单的销售排名已经能够满足读者选购图书时的资讯需求，平台就没有增设更多数据分析功能的必要性。另一方面，此类无法通过查询在网络上出现的数据，多半涉及用户隐私安全问题，因此该平台也会提升对自家服务器的保护，以致无法简单地通过一般的数据采撷软体或计算机编程而取得，而如果要用更专业的方式取得，势必得花费较高昂的代价。想要愈精细的资料与分析就需要负担更高的成本，但当费用过高时，前述“交易成本”又是一个必要的考虑因素，另一方面也会涉及合法性的问题。

但即使客户数据并不容易取得，网上也仍有些平台有免费的用户信息揭示，如在360趋势点击平台的“用户画像”即能自动带出该平台使用者的年龄、性别资料，各大网络书店年终发布的报告对平台的用户面貌也会有些基本分析，除此之外如果要了解藏在平台后面更多的用户数据，多半就要付费使用。因此，对于此部分数据的运用，目前只见部分网络书店与特定出版社以个案方式合作开展。

(二)了解用户特性，修正分析结果

实际生活中并没有“完美的大数据”，平台的特性决定了该平台数据的开放程度与内容，淘宝指数的“生意参谋”是为了服务淘宝平台上广大的电商；百度指数、新浪微指数、微信指数则多半是基于引导客户投放广告的立场才揭露该平台的用户搜索数据，西瓜数据揭露的微信大V排行也是如此，这是利用大数据时必然的局限。[11]另一方面，每个平台能给出的大数据也都只能是该平台自身用户数据的累积，而平台特性也决定了平台的用户特征。因此，编辑在选择使用免费大数据平台时，对于平台的属性必须要先有了解，才能在利用的时候对分析的结果有所修正。用户数据的缺失，可能会导致编辑在解读大数据时的严重偏差，以致造成对市场的误判。这可能是编辑利用免费大数据或用编写程序挖掘出的数据时最无法掌握的部分，但却可能是最重要的部分。

七、编辑必须掌握数据分析能力

面对现阶段完整大数据取得的困难，有些学者并不赞成单一出版社仅用自己手边的“小数据”分析，而应和握有UGC（User Generated Content）数据的电商、社交平台等合作，或向微软、谷歌等大数据服务厂商直接购买所需的数据[12]。但笔者认为如果数据并不全面，编辑只是以单一出版社窗口接触到的读者资料作为基础数据来分析，分析的结果当然会有偏颇，但出版社与网络书店平台的合作毕竟只是个案，编辑的工作却是常态，倚靠他方提供分析后的数据作为选题依据的做法，其实编辑并没有真正做好选题的工作，充其量只是追随市场，却很难领先市场，加上多数出版社的预算可能不足以长期支付数据取得和分析的费用，个案式的合作方式并不能全面提升编辑的选题能力。只要数据不掌握在自己的手中，大数据对大多数的编辑而言将永远是看得到吃不到的“高科技”。[13]

本研究经过实际操作，证实今日编辑其实已经可以通过现有的数据挖掘软件开发简易小程序，或以个人承担得起的费用委托定制可永续随时使用的数据挖掘程序，从网络上免费挖取到选题时需要的珍贵数据。这些散布在各处的公开信息原本就是过去编辑收集选题的重要资料来源，只是在大数据时代，通过自动化和对数据不同角度的分析，编辑还能进一步看到单一或少量资料所不能呈现的畅销书背后的秘密。

对于一个身处大数据时代的编辑，掌握分析数据的能力是必要的，先不论编程或其他能力，仅仅是对excel函数设置能运用自如，都能大大提升工作效率。当编辑可以亲自去操作分析手边的大数据时，这将不只是工作方式的改变，背后代表的更是数字时代编辑在选题策划时思维方式和策略的转向。大数据给了编辑一个像飞鸟般鸟瞰市场全貌的机会，让编辑能“见树又见林”，但编辑必须要把分析数据的能力拿回来，[14]因为分析数据的方式蕴含着编辑工作经验的体现，其中包括很多不同分析角度的可能尝试，这并不是对所有数据都用几种固定方式分析就能处理的问题，如果编辑不能把数据时时掌握在自己的手上，时时思考尝试不同的分析角度，那即使大数据为我们插上了“飞天的翅膀”，编辑依旧很难发现深藏在数据海背后深层的价值与局限，而这也正是编辑经验的价值所在。

八、结语

数字时代出版社转型升级已开展数年，从设计排版、印刷，到经营管理，今日出版社的作业方式相较于以往已经产生巨大的变革，但位居图书出版最前端的选题工作，似乎永远是资深编辑心中难以“丈量”的秘密。资深编辑经年累月的工作经验确实有无可取代的珍贵价值，本文所提供的选题技术操作方法，也或许不是编辑在执行选题工作时必要的方法，但身处科技迅速发展的时代，通过现成的在线平台服务和简单的程序设计对数据进行挖掘，却可以让编辑的选题工作变得更科学，而不仅仅只是依靠“灵感”或经验。建立善用大数据分析和观察书市的习惯，能更科学地增强编辑打造畅销书的效率和概率，长期数据的累积对出版社新进人员选题策划能力的快速养成也起着巨大的功用。诚如麦肯锡的报告所言，数据作为重要的生产因素已经渗透到当今的每一个行业，对海量数据的挖掘效率和运用效率将直接影响着新一轮生产力的增长。[15]在数字时代编辑选题策划的工作方式，也应该跟上时代，善用大数据更高程度地满足读者真实的需求。

(作者单位：闽南师范大学新闻传播学院)

* 本文系2018年度国家社会科学基金一般项目（项目编号：18BXW041）；福建省教育科学“十三五”规划2018年度课题（项目编号：FJJKCG18-024）基金支持。

[1]维克托·迈尔-舍恩伯格，肯尼斯·库克耶. 大数据时代——生活、工作与思维的大变革[M].周涛，译. 杭州：浙江人民出版社，2013.

[2]Mc Kinsey Digital，Big data：The next frontier for innovation，competition， and productivity [EB/OL].（2011-05-01）[2019-12-22]. https://www./ business-functions/mckinsey-digital/our-insights/big-data-the-next-frontier-for-innovation.

[3]王琪.大数据时代图书选题策划的技术手段[J].编辑学刊，2013（5）：78-79.

[4]R.H.Coase.The Nature of the Firm[J/OL].Economics New Series，1937，4（16）：386-405.https://www./stable/2626876.

[5]张博，雷锦，楼文高.新闻出版领域大数据应用模式研究[J].出版发行研究，2017（12）：31-34.

[6]MARKUS是专为中文文本所设计的半自动标记工具，码库思（MARKUS）：古籍半自动标记平台，http://dh./beta/.

[7]Text annotation for Human，https://doccano./.

[8]Docusky数位人文学术研究平台，https:///DocuSky/ds-01.home.html.

[9]周岚，吴霄征.大数据在图书选题策划中的应用[J].中国管理信息化，2017，20（19）：72-74.

[10]刘志伟.2014出版商电商深度合作期待几何？[N].中国出版传媒商报，2014-02-08.

[11]石姝莉，朱姗姗.基于“大数据”的畅销书策划与运作[J].中国出版，2016（9）：37-41.

[12]闫伟华.大数据分析与畅销书选题的精准策划[J].编辑之友，2015（6）：5-9.

[13]范春龙.浅析大数据在图书出版中的运用[J].中国传媒科技，2018（8）：115-116.

[14]周永斌.浅析大数据时代研究型策划编辑的六项选题信息能力建设[J].科技与出版，2016（2）：46-49.

[15]McKinsey Digital，Big data：The next frontier for innovation，competition，and productivity [EB/OL].（2011-05-01）[2019-12-22]. https://www./ business-functions/mckinsey-digital/our-insights/big-data-the-next-frontier-for-innovation.