高校校园网信息舆情监控系统的研究_校园舆情监控系统

其他范文 时间:2020-02-29 07:03:38 收藏本文下载本文
【www.daodoc.com - 其他范文】

高校校园网信息舆情监控系统的研究由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“校园舆情监控系统”。

高校校园网信息舆情监控系统的研究

摘 要:随着互联网的飞速发展,多数人已经把它作为获取信息的首选途径。与此同时,少数不法分子开始借助互联网与政府为敌,极大地危害了社会的安定。尤其是校园网,网民都是些思想还未完全成熟的学生,受到蛊惑和怂恿的概率极高,目前部分高校对此已经高度重视。基于此,给出了校园网网络舆情监控系统的架构设计方案,具体描述了网页信息源设定、网页信息采集、舆情分析、舆情处理等组成模块的功能及关键技术,为理解和构建校园网信息舆情监控系统提供参考。

关键词:网络舆情;监控系统;高校校园

引言

我国目前已有5.91亿网民,而在这众多网民中学生恰恰是数量最大的一个群体,占比达到了26.8%。计算机网络的进一步普及,一方面,虽然给众多网民的生活和工作带来非常大的便利;但另一方面,与网络相关的漏洞问题和黑客攻击问题,也给网民造成了一定的损失。现在流行的网络交互平台,如博客、论坛、微博、即时通信软件、QQ群、微信等,其功能主要是为人民大众提供表达个人观点和抒发个人情感的公共虚拟场所。但是,一小撮恶意分子却利用它们对民众进行煽风点火,刺激负面情绪的萌生和爆发。校园网的公共安全就显得更加重要,因为它面向的是高校人数众多的学生网民,而且学生们正处于思想还未完全成熟,情绪波动大,极易受到网络负面新闻的影响。所以,在网络盛行的当今时代,为了让高等教育更好地开花结果,必须尽可能的监控高校学生上网的渠道,加以网络教育,必要时进行网络引导。互联网上的网络舆情信息是关乎社会与校园安全稳定的一个重要因素,所以网络舆论监控和分析成为研究的热点问题。

一、国内外网络舆情的现状

网络舆情指的是公众通过有线或者无线这样的信息网络,针对公共事务和现象发表的个人意见和建议,隐藏在海量的网民言论中。由于网络舆情具有海量和隐蔽的特征,如果单单依靠人工判读这种传统的方式来分析的话,效率势必极其低下,并且最为重要的目标是舆情的统计特征将很难从中获知,特别是如果采用传统的人工方法来跟踪重点网民的话,更加是不现实的。但是,紧随着计算机和互联网技术的迅猛发展,可以方便地采用计算机技术对网络言论进行自动地提取、分析和处理,进而监控和引导网络舆情,这已经成为当前首选的有效且可行的方法[1]。

国外的一些市场机制已然趋于成熟的发达国家,更多倡导通过市场自动调节机制和行业的自律对网络舆情进行管理。例如,加拿大政府把网络舆情分为攻击性信息和非法信息两类,前者需要通过加强行业和用户的自律性;与此同时,辅以网络知识教育和自律性道德规范的制约来解决,并且已经取得了良好的管理效果。而后者则是以法律为依据,按法律进行制裁,他们实行的是“自我规制”制度。目前,IBM公司已经推出了采用先进的语义和文本分析技术的网络舆论监控方面的综合解决方案。该方案对如下网络应用:BLOG、Wiki、BBS论坛、新闻组、读者评论、网摘等。该方案从监控技术上说,就属于比较成熟的。而在我们国家,目前主要是研究对舆论信息的监控和引导、如何进行组织管理和法律保护以及关键技术的算法实现等相关内容[2]。

二、校园网信息舆情监控系统的组成1.功能介绍

该系统能够对高校学生们常常访问的校园网网站,如学校主页、校内各级下属学院和各其他部门的主页、学校的BBS等的网页信息自动进行抓取、分类和聚类分析、热点和焦点的统计、跟踪等,最终客观而全面地把舆情结果以报告的形式提供出来,从中可以洞悉学生们的热点和敏点话题,及时发现有害的舆情导向信息,为校方有效疏通学生不良情绪,作出科学引导提供有效依据,并且可以通过信息群发技术进行积极地舆情引导。

2.总体框架

通过对系统功能和业务流程的分析得知,该系统可划分为网页信息源设定、网页信息采集模块、舆情分析模块和舆情处理模块这四个核心部分,下图描述了该系统的组成结构。

图1 高校校园网信息舆情监控系统的组成结构

3.网页信息源设定

该部分是整个校园网信息舆情监控系统的数据来源。按照功能需求,该系统既可以采集来自论坛、博客、综合性网站等的网页信息,又可以采集用户自定义的关注网站。所以,设置的网页信息来源主要有两种,一是常见的搜索引擎,二是用户自己定义的需要注意的网址列表,可以存放在文本文件中。互联网Web页面中包含着非常多的数据信息,可以把它看做是一个大的数据库,正是我们所需要的信息来源。

4.网页信息采集模块

网页信息采集模块可以根据事先设置好的关键字,从搜索引擎和自定义网址列表所对应的网站中连续地采集网页信息,并对信息进行预处理操作,处理之后将有效数据存放到舆情数据库中。由于网页的更新较为频繁,增长速度又特别快,而且页面中多是些结构不规整的数据,所以,对网页进行信息采集是十分复杂的,下面将列出该模块实现的主要关键技术。

(1)抓取网页。可以利用搜索引擎所特有的网络爬虫程序,顺着超链接进行一级一级地抓取网页。经常被人们使用的有两种抓取网页的思路,分别是深度优先和宽度优先遍历策略。

(2)处理网页。主要包括提取关键内容、对数据进行清理和对内容进行去重。提取内容和清理数据过程指的是,首先,当网页抓取以后,先要把网页上与文本没有任何关系的内容清理掉;然后,提取网页的内容和标题;最后,采用人工和机器学习的方式来设定抽取模板,由于不同类型的网页,需要抽取的内容不同。内容去重涉及到自然语言的处理,具体过程是,先过滤掉没有意义或者内容有重复的网页,然后再对文本进行分词处理,可以使用以词典为基础、规则与统计相结合的分词方法进行。

5.网页数据库

采集所得来的网页数据可以利用企业级数据库进行存储,这样数据库管理系统自身具备的功能可被充分利用,能够非常方便地按照用户的需求对数据库中的数据进行操作,同时成为舆情分析模块的数据来源。

下载高校校园网信息舆情监控系统的研究word格式文档
下载高校校园网信息舆情监控系统的研究.doc
将本文档下载到自己电脑,方便修改和收藏。
点此处下载文档

文档为doc格式

    热门文章
      整站推荐
        点击下载本文