分享

量化投资:数据挖掘技术与实践

 richard_168 2016-01-08

量化投资:数据挖掘技术与实践

  书名:《量化投资:数据挖掘技术与实践》

  作者:卓金武 周英

  出版社:电子工业出版社

  出版时间:2015-5-1

  内容简介

  全书内容分为三篇。第一篇(基础篇)主要介绍数据挖掘与量化投资的关系,以及数据挖掘的概念、实现过程、主要内容、主要工具等内容。第二篇(技术篇)系统介绍了数据挖掘的相关技术及这些技术在量化投资中的应用,主要包括数据的准备、数据的探索、关联规则方法、数据回规方法、分类方法、聚类方法、预测方法、诊断方法、时间序列方法、智能优化方法等内容。第三篇(实践篇)主要介绍数据挖掘技术在量化投资中的综合应用实例,包括统计套利策略的挖掘与优化、配对交易策略的挖掘与实现、数据挖掘在股票程序化交易中的综合应用,以及基于数据挖掘技术的量化交易系统的构建。

  前言

  量化投资交易策略的业绩稳定,市场规模和份额不断扩大,得到越来越多投资者的认可。中国金融业飞速发展,尤其是2010年股指期货的推出,使得量化投资和对冲基金逐步进入国内投资者的视野。2012年丁鹏博士(600804)所著的《量化投资——策略与技术》出版后,更是推动了量化投资技术在国内的普及。目前,量化投资、对冲基金已经成为中国资本市场最热门的话题之一,各投资机构纷纷开始着手打造各自的量化投资精英团队。

  量化投资是将投资理念及策略通过具体指标、参数的设计,融入到具体的模型中,用模型对市场进行不带任何情绪的跟踪,简单而言,就是用数量化的方法对股票、期货等投资对象进行估值,选取适合的对象进行投资。目前,量化投资的书籍主要集中在模型和策略及工具的使用上,但关于如何产生这些量化模型、量化策略的书籍的确非常少。金融市场瞬息万变,为了更好地进行量化投资,我们要不断去验证既有模型的有效性,同时要想在金融行业保持自己的竞争力,又必须不断开发新的模型,而验证模型、开发模型,所谓量化投资的主要内容,都需要数据的支撑。另一方面,金融领域是数据资源保存最好、最为丰富的行业,在金融领域已经积累了大量的数据,同时每天还在产生大量的交易数据、价格数据等数据信息。这些数据资源正好为量化投资提供了很好的数据基础,那么问题的关键就是如何利用金融业丰富的数据资源更好地进行量化投资。

  数据挖掘技术是从数据中挖掘有用知识的一门系统性的技术,刚好解决了数据利用的问题,所以数据挖掘与量化投资便很自然地结合在一起。但数据挖掘在国内也是一个新领域,所以还没有关于量化投资与数据挖掘相结合的相关书籍。另外,目前关于数据挖掘的几本书基本都是译著,由于语言和文化的差异,国内读者读起来相对吃力。在这样的背景下,能有一本书介绍如何利用数据挖掘技术进行量化投资还是很好的。

  巧合的是,笔者在MathWorks平时的工作职责之一是支持金融客户,相当比例是关于量化投资的,二是支持其他商业客户的数据挖掘,所以对这两个领域都有一定的了解。在一次研讨会上,丁鹏博士与笔者讨论了数据挖掘在量化投资中应用的话题,感觉这是个非常好的课题,建议笔者写一本这样的书。笔者对这个课题也非常感兴趣,于是就有了这本书的开始。

  虽然笔者之前写过一本《MATLAB在数学建模中的应用》(在MATLAB相关书籍中也算是有影响力的书,2013年当当网自然科学类图书中销量排名Top20),具有一些写作经验。但写这本书确实还是相当费劲。因为金融从业者大多比较务实,所以本书的一个写作原则就是内容一定要务实。数据挖掘中涉及很多方法,这些方法的理论往往比较难,对于金融从业者来说,这些方法的思想和应用最重要,理论不是关注的重点。所以对于本书中介绍的每个方法,尽量介绍清楚方法的思想、实现步骤,并以案例形式提供方法实现的MATLAB程序,这样读者就可以直接借鉴书中的程序,很快将书中的技术转化为自己的实际操作工具。但笔者查阅了大量的参数书和网络资料,发现数据挖掘中的这些方法,很少有这样的程序,所以笔者花费了大量的时间和精力去编写这些方法的程序。这样做也特别符合当代人的学习习惯,现在社会信息实在是太丰富了,对读者来说,一本好书应该能让大家快速掌握这本书的精华。为了早点写好本书,在写书期间,笔者将几乎全部工作和生活之余的时间全部投入到写书中去,每个晚上,每个周末,每次带孩子去练习跆拳道的时候都在写书。虽然看似很辛苦,但确实很有成就感,是这份成就感给了我执着的动力和快乐,最终完成了此书。总之,写书的过程是“痛并快乐着”!

  本书内容

  全书内容分为三篇。

  第一篇(基础篇)主要介绍一些基本概念和知识,包括数据挖掘与量化投资的关系,数据挖掘的概念、实现过程、主要内容、主要工具等内容。

  第二篇(技术篇)是本书的主体,系统介绍了数据挖掘的相关技术及这些技术在量化投资中的应用实例。这部分又分为如下三个层次:

  (1)数据挖掘前期的一些技术,包括数据的准备(收集数据、数据质量分析、数据预处理等)和数据的探索(衍生变量、数据可视化、样本选择、数据降维等)。

  (2)数据挖掘的核心六大类方法,包括关联规则、回归、分类、聚类、预测和诊断。对于每类方法,则详细介绍了其包含的典型算法,包括基本思想、应用场景、算法步骤、MATLAB实现程序、应用案例。同时,对每类方法还介绍了一个在量化投资中的应用案例,以强化这些方法在量化投资中的实用性。

  (3)数据挖掘中特殊的实用技术,包含两章内容,一是关于时序数据挖掘的时间序列技术,二是关于优化的智能优化方法。这个层次也是数据技术体系中不可或缺的技术。时序数据是数据挖掘中的一类特殊数据,并且金融数据往往都具有时序性,所以针对该类特殊的数据类型,又介绍了时间序列方法。另外,数据挖掘离不开优化,量化投资也离不开优化,所以又以一章智能优化方法介绍两个比较常用的优化方法,遗传算法和模拟退火算法。

  第三篇(实践篇)主要介绍数据挖掘技术在量化投资中的综合应用实例,包括统计套利策略的挖掘、配对交易策略的挖掘、基于数据挖掘技术的股票程序化交易,最后一章——基于数据挖掘技术的量化交易系统,则给出了集成主流数据挖掘技术的量化投资系统的框架,读者可以利用该框架,依据书中介绍的数据挖掘技术,结合自己的情况,开发出属于自己的量化交易系统,从而轻松实现从理论到实践这一跨越,更好地利用数据挖掘技术在量化投资的领域乘风破浪,不断创造佳绩。

  本书特色

  综观全书,可发现本书的特点鲜明,主要表现在:

  (1)方法务实,学以致用。本书介绍的方法都是数据挖掘中的主流方法,都经过实践的检验,具有较强的实践性。对于每种方法,本书基本都给出了完整、详细的源代码,这对于读者来说,具有非常大的参考价值,很多程序可供读者直接套用并加以学习,并可以直接转化为自己的量化投资实战工具。

  (2)知识系统,易于理解。本书的知识体系应该是当前数据挖掘书籍中最全、最完善的,不仅包含详细的数据挖掘流程、数据准备方法、数据探索方法,还包含六大类数据挖掘主体方法、时序数据挖掘方法、智能优化方法。正因为有完整的知识体系,读者读起来才有很好的完整感,从而更利于理解数据挖掘的知识体系,这对于学习是非常有帮助的。

  (3)结构合理,易于学习。在讲解方法时,由浅入深,循序渐进,让初学者知道入门的切入点,让专业人员又有值得借鉴的“干货”。基础篇、技术篇和实践篇的结构部署也让本书独树一帜,让读者在学习数据挖掘和量化投资的过程中有一个循序渐进的过程,使读者在短时间内成为一位数据挖掘高手,同时成为一位量化投资高手。

  (4)案例实用,易于借鉴。绝大多数实例都是量化投资领域的实例,所以综观全书,本书都在有意引导读者思考如何让数据挖掘在量化投资中产生更实际的价值。

  (5)主线明晰,脉络分明。本书涉及知识面宽广,以数据挖掘和量化投资为中心,辐射银行、债券、营销、零售等领域和学科。为了与书稿主线保持一致,这些所涵盖的领域虽然只是略微带过,但是从侧面折射出数据挖掘技术真的广泛服务于社会各个领域。在现代社会,某学科单打独斗的时代已经过去了,本书在无形之中已经树立了一个意识:各学科的知识之间是相通的,运用知识的最高境界是各学科知识的大融合。

  (6)理论与实践相得益彰。对于本书的每个方法,除理论的讲解,都配有一个典型的应用案例,读者可以通过案例加深对理论的理解,同时理论也让案例的应用更有信服力。技术的介绍都是以实现实例为目地,同时提供大量技术实现的源程序,方便读者学习,注重实践和应用,秉承笔者务实、切近读者的写作风格。

  (7)内容独特,趣味横生。很多方法和内容是同类书籍所没有的,这无疑增强了本书的新颖性和趣味性。

  (8)文字简介、明了,易于阅读。在本书编写过程中,在保证描述精准的前提下,摒弃那些刻板、索然无味的文字,让文字充满活力,更易于阅读。

  读者对象

  从事投资工作的专业人士,包括证券、基金、私募、信托、银行、保险等领域的从业者。

  从事数据挖掘、数据分析、数据管理工作的专业人士。

  金融、经济、管理、统计等专业的教师和学生。

  从事量化投资或数据挖掘方向研究的科研工作者。

  希望学习MATLAB的工程师或科研工作者。因为本书的代码都是用MATLAB编写的,所以对于希望学习MATLAB的读者来说,也是一本很好的参考书。

  致专业人士

  对于从事量化投资的专业人士来说,书中的数据挖掘技术是值得借鉴的技术,至少会有助于挖掘或启发策略。书中的实例都具有一定的实战背景,含有一些从数据挖掘层面的策略,大家可以尝试将这些技术和策略融入自己的思想和策略中,以让自己的策略更强大。另外,对于书中介绍的各方法的理论,如果您有很好的数学或计算机背景,且有时间或感兴趣,可以认真看,否则,理论部分可以直接跳过。但是每种方法的思想,应用场景一定要领悟,这样当遇到合适的场景后,就可以马上想到用哪种方法,然后直接借鉴书中的代码就可以轻松将这些方法应用到自己的量化投资实践中。

  对于从事数据挖掘的专业人士来说,大家可以关注整个数据挖掘知识体系和数据挖掘的流程,因为本书的数据挖掘知识体系应该是当前数据挖掘数据中体系最全、最完善的。另外,数据挖掘流程也介绍得很详细,具有很强的操作性。此外,书中的算法案例和综合应用案例,也算是本书的特色,值得借鉴。

  致教师

  本书系统地介绍了数据挖掘设计的理论、方法和案例,可以作为金融、经济、管理、统计等学科的本科专业教材或研究生教材。相比一般的数据挖掘教材,量化投资更容易激发学生的学习兴趣,兴趣是最好的老师,这对开展教学是非常有利的。

  书中的内容虽然系统,但也相对独立,教师可以根据课程的学时安排和专业方向的侧重,选择合适的内容进行课堂教学,其他内容则可以作为参考章节。授课部分,一般会包含第一篇的两章和第二篇的前8章,总共10章内容,而如果课时较多,则可以增加其他章节,包括后面商业案例的学习。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多