Python实证指标构建与文本分析【2023】课程以Python实证指标构建与文本分析为主题,通过一系列视频和课件,涵盖了Python的基础知识、数据处理与分析的常用库以及文本挖掘与情感分析等内容。学习者将通过该课程掌握从数据获取、清洗、整合到建立实证模型的全流程操作,同时学习如何利用Python进行文本分析,并应用于不同领域,如金融分析、舆情监测等。课程重点讲解了Python语言基础、数据类型、网络爬虫、数据清洗与处理、文本特征抽取、情感分析、机器学习算法等内容。通过该课程的学习,学员可以全面掌握Python在实证研究和文本分析领域的应用技能。
为何要学Python?
在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!
在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。
但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:
网络爬虫技术解决 如何从网络世界中高效地采集数据?
文本分析技术解决 如何从杂乱的文本数据中实证指标(如情感、态度、刻板印象等)?
课程纲要
课程目标:掌握Python语法、网络爬虫、数据分析Pandas、文本分析、机器学习的核心知识点和分析思路
核心知识点:爬虫原理及应用、 非结构化文本数据挖掘的思路及方法、机器学习应用等
环境配置:安装Python,注意安装过程中勾选Add Anaconda 3.x to PATH
课件资料:本课程全部使用jupyter notebook文件作为课程课件
课程特色
接地气:以经管学术需求为导向, 将Python分为语法篇、采集数据篇、文本分析篇、机器学习篇四大部分
好理解:知识点力求通俗易懂,少了晦涩的计算机术语,多了通俗易懂的使用场景和实战讲解
上手快:所有知识点均有可重复使用的代码块,犹如一块块的积木,课后您可以根据分析需要,快速搭建出自己的Python代码
一、准备
课程介绍
Win中的Python配置
Mac中的Python配置
二、Python语法入门
Python跟英语一样是一门语言
数据类型之字符串
数据类型之列表元组集合
数据类型之字典
数据类型之布尔值、None
逻辑语句(if&for&tryexcept)
列表推导式
理解函数
常用的内置函数
内置库文件路径pathlib库
内置库csv文件库
内置库正则表达式re库
初学python常出错误汇总
三、数据采集
网络爬虫原理
网络访问requests库
网页解析pyquery库
案例豆瓣读书
案例Boss直聘
如何解析json数据
案例豆瓣电影
案例京东商城
案例用爬虫下载文档及多媒体文件
案例上市公司定期报告pdf批量下载
案例上交所招股说明pdf批量下载
案例深交所招股说明pdf批量下载
爬虫知识点总结
四、数据分析
Pandas基础知识
数据去重与缺失值处理
合并数据
重塑数据
选取表中指定记录(行)
选取表中指定字段(列)
描述性统计
在表中创建新字段(列)
批操作apply与agg
透视表pivot_table
数据分组groupby
时间序列时间点创建
日期数据的dt属性
日期行索引操作(选取指定日期的数据)
时间序列date_range
时间序列重采样resample
时间序列时间窗口rolling
案例Kaggle titanic数据集探索性分析
案例Boss直聘Python岗位分析
五、初识文本分析
从编码解码视角重新理解文本
读取不同格式文件中的数据
实战之如何将多个整理到一个excel中
案例中文分词及数据清洗
案例词频统计&词云图
案例中文情感分析(词典法)
案例对excel中的文本进行情感分析
案例共现法扩展情感词典(领域词典)
案例词向量word2vec扩充领域词典
cntext库 情感分析
案例计算文本的语言具体性 | 以JCR2021论文为例
案例使用LM金融词典对年报进行 「语调分析」 | 管理世界
案例使用md&a数据测量企业数字化 | 管理世界、财经研究
案例使用md&a数据构建标准信息、信息含量 | 中国工业经济
六、机器学习与文本分析
了解机器学习
使用机器学习做文本分析的流程
scikit-learn机器学习库简介
文本特征抽取(特征工程)
案例在线评论文本分类
使用标注工具对数据进行标注
案例计算文本情感分析(有权重)
案例文本相似性计算
案例使用文本相似性识别变化(政策连续性)
案例央行货币政策文本相似度计算&可视化 | 金融研究
案例Kmeans聚类算法
案例LDA话题模型
从图片中提取文本信息
七、词嵌入与认知
词嵌入原理及应用概述
案例豆瓣影评-训练词向量&使用词向量
案例使用词向量做话题建模
案例认知指标(态度、偏见等)的测量
总结-文本分析在经管领域中的应用
资源目录:
001.课程介绍.mp4
002.win环境配置.mp4
003.mac环境配置.mp4
004.jupyter使用方法.mp4
005.课件获取.mp4
006.Python跟英语一样是一门语言.mp4
007.数据类型之字符串.mp4
008.数据类型之列表元组集合.mp4
009.数据类型之字典.mp4
010.数据类型之布尔值、None.mp4
011.逻辑语句(if&for&tryexcept).mp4
012.列表推导式.mp4
013.理解函数.mp4
014.常用的内置函数.mp4
015.内置库文件路径pathlib库.mp4
016.内置库csv文件库.mp4
017.内置库正则表达式re库.mp4
018.初学python常出错误汇总.mp4
019.网络爬虫原理.mp4
020.网页解析pyquery库.mp4
021.网络访问requests库.mp4
022.大众点评.mp4
023.豆瓣读书.mp4
024.如何解析json数据.mp4
025.豆瓣电影.mp4
026.京东商城.mp4
027.用爬虫下载文档及多媒体文件.mp4
028.上市公司定期报告pdf批量下载.mp4
029.上交所招股说明书pdf下载.mp4
030.深交所招股说明书pdf下载.mp4
031.爬虫知识点总结.mp4
032.Pandas基础知识.mp4
033.数据去重与缺失值处理.mp4
034.合并数据.mp4
035.重塑数据.mp4
036.选取表中指定记录(行).mp4
037.query方法-选取表中指定记录(行).mp4
038.选取表中指定字段(列).mp4
039.描述性统计.mp4
040.在表中创建新字段(列).mp4
041.批操作apply与agg.mp4
042.透视表pivot_table.mp4
043.数据分组groupby.mp4
044.时间序列时间点创建.mp4
045.文本数据str属性.mp4
046.日期数据的dt属性.mp4
047.日期行索引操作(选取指定日期的数据).mp4
048.时间序列date_range.mp4
049.时间序列重采样resample.mp4
050.时间序列时间窗口rolling.mp4
051.Kaggle titanic数据集探索性分析.mp4
052.Boss直聘Python岗位分析.mp4
053.从编码_解码视角重新理解文本.mp4
054.读取不同格式文件中的数据.mp4
055.如何将多个整理到一个excel中.mp4
056.中文分词及数据清洗.mp4
057.词频统计&词云图.mp4
058.共现法扩展情感词典(领域词典).mp4
059.词向量word2vec扩充领域词典.mp4
060.中文情感分析(词典法).mp4
061.cntext库 情感分析代码操作.mp4
062.对excel中的文本进行情感分析.mp4
063.语言具体性与心理距离 _ 以JCR2021论文为例.mp4
064.使用LM金融词典对年报进行语调分析 _ 管理世界.mp4
065.使用MD&A数据测量企业数字化.mp4
066.了解机器学习.mp4
067.使用机器学习做文本分析的流程.mp4
068.scikit-learn机器学习库简介.mp4
069.文本特征抽取(特征工程).mp4
070.在线评论文本分类.mp4
071.使用标注工具对数据进行标注.mp4
072.tfidf计算文本情感分析(有权重).mp4
073.文本相似性计算.mp4
074.使用文本相似性识别变化(政策连续性).mp4
075.央行货币政策-文本相似度计算&可视化.mp4
076.Kmeans聚类算法.mp4
077.LDA话题模型.mp4
078.使用机器学习从图片中提取文本信息.mp4
079.md&a信息含量.mp4
080.词嵌入原理及应用概述.mp4
081.豆瓣影评-训练词向量&使用词向量.mp4
082.使用词向量做话题建模.mp4
083.认知指标(态度、偏见等)的测量.mp4
084.总结-文本分析.mp4
暂无评论内容