分享

Python实证指标构建与文本分析

 大邓的Python 2024-02-09 发布于瑞典

概览

为何要学Python?

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:

网络爬虫技术 解决 如何从网络世界中高效地 采集数据
文本分析技术 解决 如何从杂乱的文本数据中 抽取文本指标(变量)

开票请先咨询再下单



一、Python语法入门

  1. Python跟英语一样是一门语言

  2. 数据类型之字符串

  3. 数据类型之列表元组集合

  4. 数据类型之字典

  5. 数据类型之布尔值、None

  6. 逻辑语句(if&for&tryexcept)

  7. 列表推导式

  8. 理解函数

  9. 常用的内置函数

  10. 内置库文件路径pathlib库

  11. 内置库csv文件库

  12. 内置库正则表达式re库

  13. 初学python常出错误汇总


二、数据采集

  1. 网络爬虫原理

  2. 网络访问requests库

  3. 网页解析pyquery库

  4. 案例  豆瓣读书

  5. 案例  Boss直聘

  6. 如何解析json数据

  7. 案例  豆瓣电影

  8. 案例  京东商城

  9. 案例  用爬虫下载文档及多媒体文件

  10. 案例  上市公司定期报告pdf批量下载

  11. 案例  上交所招股说明pdf批量下载

  12. 案例  深交所招股说明pdf批量下载

  13. 爬虫知识点总结

三、初识文本分析

  1. 从编码/解码视角重新理解文本

  2. 读取不同格式文件中的数据

  3. 如何将多个txt文件整理到一个excel中

  4. 案例  中文分词及数据清洗

  5. 案例  词频统计&词云图

  6. 案例  共现法扩展情感词典(领域词典)

  7. 案例  词向量word2vec扩展领域词典

  8. 案例  中文情感分析(词典法)

  9. cntext库 情感分析代码操作

  10. 案例  对excel中的文本进行情感分析  

  11. 案例   语言具体性与心理距离 | 以JCR2021论文为例

  12. 案例   使用MD&A数据测量企业数字化 | 管理世界

  13. 案例 使用MD&A文本计算标准信息、信息含量 | 中国工业经济


 

四、机器学习与文本分析

  1. 了解机器学习ML

  2. 使用机器学习做文本分析的流程

  3. scikit-learn机器学习库简介

  4. 文本特征抽取(特征工程)

  5. 案例  在线评论文本分类

  6. 使用标注工具对数据进行标注

  7. 案例  计算文本情感分析(有权重)

  8. 案例  文本相似性计算

  9. 案例  使用文本相似性识别变化(政策连续性)

  10. 案例  央行货币政策文本相似度 | 金融研究

  11. 案例  Kmeans聚类算法

  12. 案例  LDA话题模型

  13. 使用机器学习从图片中提取文本信息


五、词嵌入与认知

  1. 词嵌入原理及应用概述

  2. 案例  豆瓣影评-训练词向量&使用词向量

  3. 案例  使用词向量做话题建模

  4. 案例  认知指标(态度、偏见等)的测量

  5. 总结-文本分析在社科(经管)领域中的应用



开票请先咨询再下单




相关文献

在这里我把技术细分为词频、词袋、w2v建词典、w2v认知变迁四个维度,整理了经管 6 篇论文。大家可以阅读这 6 篇论文,掌握文本分析的应用场景。

[0]刘景江,郑畅然,洪永淼.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.
[1]洪永淼,刘俸奇,薛涧坡.政府与市场心理因素的经济影响及其测度[J].管理世界,2023,39(03):30-51.
[2]沈艳, 陈赟, & 黄卓. (2019). 文本大数据分析在经济学和金融学中的应用: 一个文献综述. 经济学 (季刊), 18(4), 1153-1186.
[3]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论:1-27.
[4]张楠,黄梅银,罗亚,马宝君.全国政府网站内容数据中的知识发现:从注意力分配到政策层级扩散[J].管理科学学报,2023,26(05):154-173.
[5]许帅,邵帅,何贤杰.业绩说明会前瞻性信息对分析师盈余预测准确性的影响——信口雌黄还是言而有征[J].中国管理科学:1-15.
[6]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.
[7]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[8]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150.
[9]曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.
[10]彭红枫, & 林川. (2018). 言之有物: 网络借贷中语言有用吗?——来自人人贷借款描述的经验证据[J]. 金融研究, 461(11), 133-153.
[11]吴非, 胡慧芷, 林慧妍, and 任晓怡. “企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].” 管理世界 (2021).
[12]姜富伟,胡逸驰,黄楠.央行货币政策报告文本信息、宏观经济与股票市场[J].金融研究,2021,(06):95-113.
[13]陈霄,叶德珠,邓洁.借款描述的可读性能够提高网络借款成功率吗[J].中国工业经济,2018,(03):174-192.
[14]罗勇根,饶品贵,陈灿.高管宏观认知具有管理者“烙印”吗?——基于管理者风格效应的实证检验[J].金融研究,2021(05):171-188.
[15]吴胜涛,茅云云,吴舒涵,冯健仁,张庆鹏,谢天,陈浩,朱廷劭.基于大数据的文化心理分析[J].心理科学进展:1-13.
[16]Lix, Katharina, Amir Goldberg, Sameer B. Srivastava, and Melissa A. Valentine. "Aligning differences: Discursive diversity and team performance." *Management Science* 68, no. 11 (2022): 8430-8448.
[17]Rocklage, Matthew D., Sharlene He, Derek D. Rucker, and Loran F. Nordgren. "Beyond Sentiment: The Value and Measurement of Consumer Certainty in Language." Journal of Marketing Research (2023): 00222437221134802.
[18]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." *Information Systems Research* 29.2 (2018): 273-291.
[19]Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” _Journal of Consumer Research_ 47, no. 5 (2021): 787-806.
[20]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, *The Review of Financial Studies*,2020
[21]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. *Journal of Accounting Research*, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[22]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." *Journal of Marketing* 84, no. 1 (2020): 1-25.
[23]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.
[24]Bellstam, Gustaf, Sanjai Bhagat, and J. Anthony Cookson. "A text-based analysis of corporate innovation." _Management Science_ 67, no. 7 (2021): 4004-4031.
[25]Arts, Sam, Bruno Cassiman, and Jianan Hou. "Position and Differentiation of Firms in Technology Space." Management Science (2023).
[26]Cookson, J. Anthony, and Marina Niessner. "Why don't we agree? Evidence from a social network of investors." The Journal of Finance 75, no. 1 (2020): 173-228.
[27]Mansouri S, Momtaz P P. Financing sustainable entrepreneurship: ESG measurement, valuation, and performance[J]. Journal of Business Venturing, 2022, 37(6):106258.

精选内容

LIST | 社科(经管)可用数据集列表
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
数据集 | 36330条上市公司仲裁数据(2000-2021)
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 | 288w政府采购合同公告明细数据(2023.09)
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用gov工作报告生成数字化词频「面板数据」
Polars库 | 最强 Pandas 平替来了

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多