参考文献

注册

 

发新话题 回复该主题

文献整理笔记非结构化数据挖掘在新闻领 [复制链接]

1#
随着互联网和计算机的发展,基于大数据的非结构化数据日益成为自然科学和社会科学中数据挖掘研究的重要领域。大数据以迅猛之势覆盖了各行各业和公众生活,也催生出数据新闻这一新型新闻报道方式。数据新闻被视为未来新闻业的发展趋势,相关研究渐成显学。[1]孔翔宇,毕秀春,张曙光.财经新闻与股市预测——基于数据挖掘技术的实证分析[J].数理统计与管理,,35(02):-.研究背景:随着改革开放带来的经济发展和人们转变的投资意识,股票已经成为中国人投资理财的重要一环。传统的金融数据分析处理的是大量反映经济表现的结构化数据,然而大数据时代带来的是巨大的数据体量和繁多的数据类型,结构化数据已经逐渐不能完全满足量化投资分析的需求。数据来源:从ChinaDaily取得年11月29日至年3月14日间共73日的关于中国经济的个英文财经新闻文档,组成供LDA分析的语料库。数据处理方法:将语料库中所有词语编为词汇表,通过统计每个文档中词语出现的次数把语料库转化为个词语频数的向量,表明文档中出现的词语在词汇表中对应位置。并将冠词、介词、连词和代词等对文档内容无意义且出现频率过高的54个词语删去,使用剩下的个词语组成的词汇表对个数组实施LDA算法,从处理过的语料库识别聚类出25个主题。通过聚类分析提炼出10个主题。研究结论:文献[1]使用自动文本分析技术与机器学习技术,通过概率主题模型对财经新闻文档进行聚类得到其中的主题分布,再结合实际股票市场的交易数据分析其与市场之间的关联程度,最后引入支持向量机算法对股市走势进行预测。结果表明新闻中国际贸易以及城市化相关主题与股市变动关系密切,通过支持向量机对获取到的每日新闻主题进行分析,能以较高的概率(66.7%)预测当日股市的涨跌。与同类研究相比较的优缺点:文献[1]构建了一个分析财经新闻的文本挖掘系统以考察其与实际沪深股票市场的行为的相关度,目标是识别出对股票市场有冲击的主要事件,分析这些事件的出现特征并利用其预测市场变化趋势。阅读参考价值:文献[1]提出了一种基于新闻主题分布分析股市的未来走势的预测模型,通过支持向量机对获取到的每日新闻主题进行分析,能以较高的概率预测当日股市的涨跌,这对量化交易将产生巨大的价值。[2]薛可,孟筱筱,宋锋森.差异与互补:官方与民间社交媒体的新闻生产对比研究[J].新闻记者,(05):67-74.研究背景:在传统的媒体格局中,常常由于官方与民间传播立场、模式和策略等方面的差异,特别是在*治、经济和社会新闻的报道中,容易形成两大舆论场的冲突甚至对立。在传播方式更加多样化的社交媒体时代,这种冲突更加凸显。所以,如何促进两大媒体之间的互补和共赢对于做好新闻舆论工作至关重要。数据来源:以官方媒体“中国非物质文化遗产中心”与民间媒体“非遗星球”两大
分享 转发
TOP
发新话题 回复该主题