课程纲要·课程目标: 掌握Python语法、网络爬虫、文本分析、机器学习的核心知识点和分析思路·核心知识点: 爬虫原理及应用、 非结构化文本数据挖掘的思路及方法、机器学习应用等·环境配置: Python3.8及3.9仍处于Bug迭代开发阶段, 建议按照本课程安装3.7.5;如果电脑已经安装过Python和Anaconda等软件,建议全部卸载按照B站链接重新安装;·课件资料: 本课程全部使用jupyter notebook文件作为课程课件,购买课程后即可得到代码数据等相关资料 课程特色·接地气: 以经管学术需求为导向, 将Python分为语法篇、采集数据篇、文本分析篇、机器学习篇四大部分·好理解: 知识点力求通俗易懂,少了晦涩的计算机术语,多了通俗易懂的使用场景和实战讲解·上手快: 所有知识点均有可重复使用的代码块,犹如一块块的积木,课后您可以根据分析需要,快速搭建出自己的Python代码 课程试听课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋可以收藏观看~ 课程链接 https://ke.qq.com/course/482241 试听 课程目录在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节! 在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。 但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题: 1.网络爬虫技术 解决 如何从网络世界中高效地 采集数据?2.文本分析技术 解决 如何从杂乱的文本数据中抽取文本信息(变量)? 一、Python语法入门·Python跟英语一样是一种语言·数据类型之字符串·数据类型之列表元组集合·数据类型之字典·数据类型之布尔值、None·逻辑语句(if&for&tryexcept)·列表推导式·理解函数·常用的内置函数·文件路径库os库·数据存储csv库·初学python常出错误汇总 二、数据采集·网络爬虫原理·发现网址规律·网络访问requests库·网页解析pyquery库·案例 1:豆瓣小说·如何解析json数据·案例 2: 知乎·案例 3: 微博·案例 4: 如何下载多媒体文件·案例 5: 巨潮资讯-批量下载上市公司定期报告pdf·案例 6: 证券从业人员信息·案例 7:api信息爬取·爬虫知识点总结 三、 文本处理入门·文本分析概述·读取文件中数据(pdf、docx、txt、excel)·数据清洗re库·案例 8: 中文jieba分词及数据清洗·案例 9: 词频统计(词云图制作)·案例 10: 将多文件数据汇总到一个excel·案例 11: 中文情感分析(词典法)·数据分析pandas库快速入门·案例 12: 对excel中的文本进行情感分析·案例 13:共现法扩展情感词典(领域词典)·从非结构化文本数据中提取结构化数据(文本数据清洗re库) 四、文本分析进阶·了解机器学习·使用机器学习做文本分析的流程·scikit-learn机器学习库简介·文本特征抽取(特征工程)·案例 14:在线评论情感分析(机器学习法)·文本相似性(cos/编辑距离/jaccard)·案例 15: 使用文本相似性自动识别冲击(改变的)时间点·案例 16:Kmeans聚类算法·案例 17:LDA话题模型·文本分析在经管研究中的应用·补充: 如何在R语言中调用Python的代码 课程购买购买链接 https://ke.qq.com/course/482241 试听 支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习 文本分析相关论文参照两篇论文的摘要,可以通过场景化等的方式帮助我们迅速理解上面两个问题。摘要部分的加粗内容是论文用到的分析技术,在我们的课程中均有与之对应的知识点和代码。 王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性——基于Kickstarter的实证研究[J].管理世界,2016(05):81-98.
Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. original mobile apps: A machine learning copycat-detection method and empirical analysis." Information Systems Research 29, no. 2 (2018): 273-291.
文本分析相关论文汇总 [1]沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19 [2]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98. [3]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150. [4]Kenneth Benoit. July 16, 2019. “Text as Data: An Overview.” Forthcoming in Cuirini, Luigi and Robert Franzese, eds. Handbook of Research Methods in Political Science and International Relations. Thousand Oaks: Sage. [5]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics [6]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing 84, no. 1 (2020): 1-25. [7]Banks, George C., Haley M. Woznyj, Ryan S. Wesslen, and Roxanne L. Ross. "A review of best practice recommendations for text analysis in R (and a user-friendly app)." Journal of Business and Psychology 33, no. 4 (2018): 445-459. [8]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." The Journal of Finance 75, no. 3 (2020): 1371-1415. [9]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291. [10]Hoberg, Gerard, and Gordon Phillips. 2016, Text-based network industries and endogenous product differentiation,?Journal of Political Economy 124, 1423-1465 [11]Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis, dictionaries, and 10‐Ks." The Journal of finance 66, no. 1 (2011): 35-65. [12]Fairclough, Norman. 2003. Analysing discourse: Textual analysis for social research (Psychology Press) [13]Grimmer, Justin, and Brandon M Stewart. 2013, Text as data: The promise and pitfalls of automatic content analysis methods for political texts, Political analysis21, 267-297. |
|