欢迎访问一起赢论文辅导网
机械论文
当前位置:首页 > 机械论文
基于文本挖掘的财经领域趋势分析技术研究
来源:一起赢论文网     日期:2015-09-17     浏览数:1923     【 字体:

然后做出恰当、有效的反应。媒体行业每天都提供了大量的财经新闻报道,单单依靠人力难以快速的全面的分析其影响,因此可以借助计算机技术来帮助处理。财经新闻大多以非结构化的文本形成呈现,而文本挖掘技术能够从大量的、非结构化的文本数据中提取事先未知的、可理解的、最终可用的知识[2,适合解决这一问题。1.1.2研究意义伴随着我国金融业的快速发展,国内金融市场的规模FI益壮大,人们对市场趋势的判断越来越依赖于大量的市场形成的历史数据和相关的即时新闻事件的分析。许多金融市场的投资者和研究机构也逐渐认识到有效分析金融数据对于指导他们获利的重要性。本课题研究财经新闻对于财经领域市场趋势的影响,是基于市场的需要,因此具有特别重要的现实意义。股票市场是金融市场的一个重要分支,在我国经济发展中占有举足轻重的地位,利用财经新闻对股票的趋势进行研究,准确把握市场变动的规律,不仅能够指导投资者进行合理有效的投资,而且能够促使国家经济朝着好的、可控制的方向发展。因此本课题具有极其重要的研究价值。课题通过研究有效的文本表示方式和先进的文本挖掘技术來考查各类财经新闻对于公司股价变化的影响。研究成果不仅对于判断股市价格变化有重要参考价值,而且对于外汇市场和期货市场等其他金融市场的价格变化也具有借鉴意义。课题研究密切结合蓬勃发展的中国金融市场,为提高股票价格趋势分析水平,实现商业智能和精细管理,提供理论基础和技术手段。1.2国内外研究现状本课题主要基于文本挖掘技术当中的文本分类技术來研究财经新闻对金融市场(主要是股票市场)的影响,以下分别就文本分类技术的研究历史与现状、国内外在财经新闻影响股票市场的研究领域的现状进行阐述。1.2.1文本分类技术研究现状对于文本分类的研究,国外从二十世纪五十年代就开始了。H.Pluhn首先提出词频统计思想,并成功用于自动分类中。1960,随着Maron —篇有关文本自动分类的论文在Journal of ACM杂志上的发表,文本分类技术诞生了。随后的时间里,各国著名情报学家都在这一领域进行研究。其中,Salton教授提出的向量空间模型,在文本分类等领域得到了广泛应用。从文本分类研究的发展来看,可分为两个阶段:第一阶段(60年代-80年代):自动分类可行性研究。文本分类系统以专家构建2       北方工业人学硕士学位论文   

的知识工程技术为基础,根据专家定义的逻辑规则将新文本归类为某种或几种特定类另1J。典型的案例有卡内基集团为路透社开发的新闻自动分类系统等。该类系统耗费大量的人力和财力,通用性较差。第二阶段(90年代-现在):自动分类实验研究。随着机器学习、模式识别、数据挖掘等理论技术的蓬勃发展,文本分类迎来了新的机遇和挑战。这些分类算法的共同点是:通过不断训练、学习预先正确分类的训练文本集合,得到类别的特征判别信息,再对分类器的性能进行测试。其中,基于机器学习的自动分类方法明显优于知识工程方法,而且不需要专家的参与,节约大量人力财力。国内对文本自动分类技术的研究始于1981,南京林业大学侯汉清教授深入的探讨了计算机在文献分类工作中的应用,迈开了国内研究文本分类技术的第一步。由于中文文本和英文文本的差异性,国内的研究结合了中文文本的特性,形成了文本分类新体系。目前,国内的一些高校和研究机构已经开发出了许多较为实用的专门针对中文的文本分类系统,有的已经完成了商业化的转变。1.2.2财经新闻对股市影响研究现状进入21世纪以来,美国、香港、澳大利亚、印度等金融发达国家和地区相继幵展财经新闻对于股票市场影响的深入研究,并获得令人鼓舞的结果。研究者通常以词语或短语的集合来表示新闻内容,同时结合词语在新闻文档内出现的频率等其它特征。通过训练支持向量机或神经网络等分类器,来预测股价在相关新闻发布后上升还是下降。据报告预测的准确率多在60%70%之间。随着我国股票市场的规模和作用的日益增长,研究财经新闻对于市场的影响无疑具有重要的现实意义和广阔的应用前景。目前,国内在这一方面进行的研究还比较少。北京大学和清华大学的学者们开创性的研究了财经新闻对于中国股票市场的影响。他们利用词语和词频表达新闻内容,分别使用神经网络和支持向量机预测下一交易円股票价格或指数的变化。报告的预测准确率达到了国际同类水平。1.3论文的研究内容本文以财经领域中的股票市场为研究对象,研究了财经新闻公布之后,在短时期内对相关公司股价产生的影响,对股票市场的趋势变化进行分析。文屮对文本分类技术进行了深入研究,实现了一个基于支持向量机分类算法的财经新闻分类系统。本文的主要研究内容包括:(1)研究了文本挖掘技术的理论基础。包括文本挖掘的过程、分类、应用领域。(2)研究了文本分类的理论知识和关键技术。对文本分类的过样,分类过程中3      北方丁业大学硕士 位论文    

需要使用的各种方法,以及分类完成后的分类结果评价方法进行了细致研究。(3)财经新闻文本预处理研究、特征选择方法之间的对比研究,相关分类算法的研究,从而使财经新闻分类系统达到最佳的效果。(4)使用C++语言搭建财经新闻分类系统,实现对财经新闻的自动分类,从而分析相关股价的趋势,并对分析结果做出评估。1.4论文的组织结构本论文分六个章节来探讨基于文本挖掘的财经领域趋势分析技术,各章主要内容如下:第一章为绪论部分,简要说明了论文的研究背景和意义,总结概括国内外的文本分类技术研究现状以及财经新闻对股市影响研究现状,明确了本文的研究内容,给出了论文的组织结构。第二章至第五章是全文的重点,系统讲述了基于文本挖掘的财经新闻分类系统研究和建立的过程。其中,第二章介绍了文本挖掘技术的理论基础。第三章详细叙述了文本分类过程及相关算法。第四章描述了财经新闻分类系统的需求及设计。第五章叙述了该财经新闻分类系统的各个模块的实现,并对实验结果进行详细分析。第六章是本文的最后部分,总结了课题的研究工作,展望了下一步需要做的的工作。11绪论1.1研究背景及意义由于我国金融信息化的快速发展,金融领域积累了非常庞大的R常数据,如何将这些数据转换成有用的决策信息,是令很多金融分析人士和市场投资人士十分感兴趣的问题。当前我们可以从众多的财经网站上获取关于股票、债券、基金、外汇等许多财经信息,全面覆盖了财经领域。有效的利用这些信息可以帮助我们分析金融市场的发展趋势,进而指导投资决策、风险管理等金融业务活动。1.1.1研究背京在金融市场全球化、电子化、虚拟化的发展背景下,当今世界进入了一个信息化和数量化的时代,金融市场得到了飞速发展,金融业每天产生的数据正在以惊人的速度增长,不过“数据丰富但知识贫乏”却已经成为了一种普遍现象。人们期待着能从这些浩潴如海的金融数据中及时有效地挖掘出高附加值的信息资源或有用的知识为其经营管理决策服务。在大量金融数据开始出现并不断积累的过程中,人们便开始并且不断深入地对这些数据进行分析和研究,期望能够从中获得有价值的信息。以往的研究中,研究者们主要是运用基础分析和技术分析这两种方法来对财经领域的趋势进行分析。基础分析方法⑴重在研究影响市场变化的各个因素(国际和国内经济形势、国家经济政策、企业经营状况等等)从而找出市场变化的规律,并通过把握这些规律去预测未来的市场变化。对于甚础分析者来说,准确有效的把握各个市场因素很困难,因此该方法更多的停留在理论研究之上。而技术分析方法⑴,是运用一些技术手段从市场中累积的大量历史数据中找出影响其变化的内在规律,从而判断市场未来的变化趋势。当前运用技术分析方法对金融市场进行趋势分析和预测的研究已经比较成熟,国内外已成功开发出多个有效的金融市场预测系统,且具有较高的准确度。近些年來,利用财经领域的新闻报道來对分析金融市场(主要是股票市场)的趋势变化成为一个研究热点。财经新闻能够即时准确的报道社会经济生活的各个方面,是人们进行经营决策和投资管理的重要参考。人们可以通过互联网浏览即时财经新闻,查找特定公司的财务状况和经营业绩。相关的财经新闻事件的公布将对敏感的股票市场产生直接影响,比如“某公司盈利大幅度增加”这一事件会对该公司的股票价格产生拉升作用。股票市场变化十分迅速且竞争非常激烈,决策者需要及时判断新闻事件可能产生的冲击,1 」匕方.:业人学硕士学位论文 

2文本挖掘相关技术本文的研究对象财经新闻是非结构化的文本数据,需要通过文本挖掘技术从中提取有价值的信息,从而指导投资者的投资行为。因此,本章对文本挖掘相关技术进行详细介绍。2.1文本挖掘概念文本挖掘(Text Mining)是数据挖掘领域的一个分支,它是一个边缘学科,由机器学习、数理统计、自然语言处理等多种学科交叉形成[3],是将数据挖掘技术应用在文本数据上,发现其中隐含的知识的过程。文本数据包括:文档集、新闻文章、网页、电子邮件、用户手册等。文本挖掘对单个文本或文本集进行分析,从中提取概念,并按照指定的方案组织、概括文本,发现文本集中的重要主题。文本挖掘的基本思想是首先利用文本切分技术(主要是中文分词技术),抽取文本的关键词等特征项,将文本数据转化为能表示文本内容的结构化数据,然后利用分类、聚类技术和关联分析等数据挖掘技术,获取有用的知识模式[4]。文本挖掘与数据挖掘相比,它们相似处在于:两者都处理大量的数据,都可归属到知识发现领域中。它们的差别在于很多经典的数据挖掘算法,比如决策树、数值预测等都不太适用于文本挖掘,因为它们依赖于结构化的数据。而像概念关系分析等工作则是文本挖掘所独有的。两者的主要区别见表2.1所示:2.1文本挖掘和数据挖掘的区别数据挖掘     文本挖掘研究对象 结构化数据(数值等形式)   非结构化数据(文本形式)对象结构 关系观数据库 文本文件抽取知识,预测以后的状态   检索相关信息,提取意义,分类fn纳学习、决策树、 标引、概念抽取、语言学成熟度 1994年幵始广泛应2000年开始广泛应用2.2文本挖掘过程文本挖掘的-般过程如阁2.1所示。5     北方工业人学硕士学位论文      

fill I特征的特征集LJ学习、知识LJ投式质       知识|r j 缩减二模式提取=$ tt评价=:^^   A                 Z文本集图2.1文本挖掘的过程(1)文本特征的建立现有的数据挖掘技术并不能直接的应用到文本挖掘问题中,根本原因是文本挖掘的处理对象是非结构化的文本数据。只有通过文本特征的建立,从文本中提取能够代表文本内容的特征项,并且以结构化的方式保存这些特征项,才能实现对非结构化的文本数据进行处理。(2)特征集的缩减需要挖掘有用信息的文本集合中通常包含了非常多的词语,如果把文本集合中的所有词语都选为特征项,势必导致特征空间的维数过高。如此多的特征中,实际上只有少数关键特征对于将要进行的分类学习过程比较重要,且过高的特征维度会降低文本挖掘的效率。因此在第一步建立文本特征后,还要通过一些特征选择方法对特征集进行缩减,以降低特征空间的维数。(3)学习与知识模式的提取对文本的特征集进行缩减以后,文本的内容就通过这些特征词的形式來表示,此时可以利用机器学习的相关方法来学习和提取有用的知识模式。这个过程中常用文本分类和文本聚类方法來提取知识。(4)模式质量的评价获取知识模式之后,还需要对该模式进行评价,如果评价的结果满足实际应用的要求,则将该模式存储下来,如果不能满足,还需要返回到前两个环节进行改进,然后再幵始新一轮的文本挖掘。2.3文本挖掘分类根据文本挖掘的不同任务,可将其分为:分类、聚类、关联分析、文档0动摘要等等。下面分别对这几种文本挖掘技术进行简要介绍。2.3.1文本分类文本分类是在预定义的分类体系中,根据文本的特征,将待分类文本分配到给定6 北方:J:业大学硕丨-:学位论文    

文本关联分析的任务是找出满足最小支持度和最小置信度的强关联规则,包括生产频繁项集和生成关联规则两个步骤。生成频繁项集的典型算法有AprioriFP-Growth,利用频繁项集生成关联规则时可以利用Apriori性质进行剪枝,提高关联规则生成的效率。2.3.4文档自动摘要在当今这样一个信息化社会,文献数量增长极快,每天都有大量文献资料产生。如何快速的从这些文献中获取有价值的信息,才是人们所关心的问题。文档摘要提取是一种重要的信息蹄选和浓缩方式,传统的摘要提取方法是人工编制,但人工编制的成本高、效率低,且主观性很大,因此便产生了文档摘要自动化的研究。使用文档自动摘要能够大大降低编制文摘的成本,并且能够缩短文献加工的时间,这样人们就能够方便、快速地获取所需要的信息。文档自动摘要是指利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文[7]。在技术实现方面,文档自动摘要根据处理过程,可分为三个步骤:(1)文档分析过程,对原始文档进行分析,找出最能代表原始文档内容的成分,形式文档的源表示;(2)信息转换过程,考察实际应用中的各个因素,修剪和压缩源表示,形成文档的摘要表示;(3)重组源表示的内容,生成最终的文档摘要并要确保摘要的连贯性。文档自动摘要技术主要包括自动摘录法、最大边缘相关自动文摘法、基于信息抽取的自动文摘、基于理解的自动文摘、基于结构的自动文摘等。2.4文本挖掘中的应用领域文本挖掘在实际中的应用领域非常广泛,典型的应用领域包括:信息检索、企业知识管理、客户关系管理、垃圾邮件过滤等。(1)信息检索文本挖掘技术基于文本内容完成对信息的检索,从文本信息中抽取关键的、用户所需的特征信息,使得检索出来的信息更全面更准确。(2)企业知识管理随着各行各业办公自动化的普及,企业中电子形式的文档数量急剧增加,文本信息不断累积。通过文本挖掘技术可以获取对企业管理有价值的知识。(3)客户关系管理企业经营中积累了不少有关客户的信息,这些信息大多数以文本形式存在。企业可以通过文本挖掘技术对客户的价值、客户的忠诚度、客户的流失率等进行分析,   北方.J:业大学硕士爭位论文      

的一个或多个类别的过程[5]。传统的文本分类工作都是由专家或专业人士进行人工分类,人工分类方法费时费力,且分类结果存在一定的主观因素。相对于人工分类方法,自动分类方法可以有效地减少分类工作的繁杂性和主观性,并且能够有效的提高信息处理的效率。文本分类的基本步骤可以分为三步:首先,将预先定义好类别的文本作为训练集输入;其次,文本自动分类算法对输入的训练集进行学习,并构建分类模型;最后,用学习得到的分类模型对新输入的文本进行分类。第一步中涉及训练文本集的预处理问题、文本表示问题、特征选择问题,这些问题对整个文本分类的准确性和效率影响重大。第二步主要根据应用领域的特点,选择合适的分类器来建立分类模型,是文本自动分类的核心步骤。最后,就可以根据分类器对新输入文本的分类结果,对其分类性能进行评估。在论文的第三章中,将会对文本分类关键技术进行详细研究,这里不再做过多介绍。2.3.2文本聚类文本聚类是指将文本数据集划分成多个类别或组(clustering),使得同一组中的文档差别较小,不同组的文档差别较大。其基本思想是认为所研究的文本数据集合中的各个文本存在不同程度的相似性,根据文本数据的若干个属性,找到能够度量它们之间相似程度的量,对文本数据进行区分和分类的过程。文本聚类和文本分类不同,文本分类中,事先已经知道要分成哪几类,通过对训练文本数据集进行学习得到分类器,从而完成对新文本的分类,分类过程是一个有指导的学习过程。而文本聚类中,事先并不知道要分成几类,仅仅依靠文本数据间的相似性来作为类别划分的准则,是一个无指导的学习过程。目前常见的文本聚类方法包括:分割法、层次法、基于网格的方法等丨6】。分割法的思想是,首先给定一个分组数K和一个初始的分组方法,通过不断的迭代改变分组使其更好,典型算法有K-MeansPAMCLARANS。层次法在满足某种条件之前不断的对给定数据集进行层次分解,具体可分为“自底向上”和“[:丨顶向下”两种方案[6],代表算法有BIRCH, CURE, CHAMELEON。基于网格的方法首先将数据空间划分成有限个单元组成的网格结构,然后将单个单元作为处理对象,处理速度快,代表算法有 STINGCLIQUEWAVE-CLUSTER2.3.3文本关联分析在我们的H常生活中积累了大量的数据,这些数据内部可能存在某些隐含的关系。文木关联分析就是挖掘出隐藏在文本数据集中令人感兴趣的、有价值的联系。

[返回]
上一篇:WEB文本挖掘概述
下一篇:机械学院硕士研究生发表学术论文期刊名称目录