【计算机大数据毕业设计基于spark+hadoop的大数据分析论文写作参考案例-哔哩哔哩】
目录
1 简介 1
两个系统分析2
2.1 必要性及可行性分析2
2.2 技术分析2
三总体设计4
3.1 可视化界面设计4
3.2 数据库设计4
3.3 网页设计5
实施了四个实验6
4.1 大数据实验环境搭建6
4.1.1 Linux系统及相关软件配置6
4.1.2 JDK安装7
4.1.3 Scala 安装 8
4.1.4 Hadoop 9的安装
4.1.5 Spark 安装 11
4.1.6 MySQL数据库安装11
4.1.7 安装Tomcat12
4.2 IDEA开发工具安装13
4.2.1 启动IDEA13
4.2.2 安装IDEA 13的Scala插件
4.2.3 配置项目的JDK14
4.2.4 使用IDEA开发WordCount程序15
4.3 电信用户行为分析实施流程 20
4.3.1 上传本地数据集到HDFS21
4.3.2 在MySQL中创建数据库21
4.3.3 开发Spark程序分析用户行为 24
4.3.4 使用Spring MVC框架进行数据可视化分析 27
4.3.5 将Web应用程序部署到Tomcat服务器35
五项结论38
电信用户行为分析
(安阳师范学院软件学院, 河南安阳 455002)
摘要:电信用户行为分析是将登录电信公司网站的用户数据集加载到分布式文件系统HDFS中,对数据集进行用户行为分析,将分析结果写入MySQL数据库,最后进行可视化分析通过Spring MVC框架。 网站公司可以通过对用户渠道趋势的分析、用户请求方式的比较、特定用户信息的展示来预测未来网民行为将如何变化,从而进一步拓展公司的业务。 本文介绍了整个项目的系统分析、技术分析以及总体设计。
关键词:电信用户行为分析; 分布式文件系统; Spring MVC框架; MySQL数据库
一、简介
近年来,随着移动通信网络和互联网技术的融合和发展大数据分析工具 storm,移动互联网已经渗透到人们日常工作和生活的各个领域,成为不可或缺的一部分。 人们可以非常方便地使用终端接入通信网络。 访问互联网。 网络技术的发展为用户提供了多样化、高速的网络服务; 同时,用户也期待更加差异化、个性化的服务。 挖掘和发现在线用户的共性和个人特征,深入洞察用户的行为偏好,实现精准的用户定位和精细化运营,成为移动互联网时代成功的关键。 该项目主要对部分省市电信公司网站的用户登录数据进行分析和可视化,能够清晰反映用户登录渠道的变化趋势; 用户通过PC、平板、手机三种渠道登录。 网页分布及占比; 并查看每个用户的具体信息。
两个系统分析
2.1 必要性及可行性分析
在电信用户行为分析中,基于浙江省丽水市、福建省南平市、福建省福州市的用户登录电信网站的数据进行分析。 主要分析用户登录渠道的趋势以及用户登录网站时的请求方式。 并显示用户特定信息。 尽管网络技术发展迅速,但很少有人深入分析网民的具体行为信息,这在一定程度上制约了其发展速度; 网站企业还可以通过对用户行为的分析,获得未来用户行为的发展趋势。 这可以进一步扩大互联网用户数量,从而提高网站公司的发展速度。 另外,在电信用户行为分析过程中,我们首先安装了系统,为后续的实验配置环境。 而且每个软件的安装步骤和注意事项都是之前学习和实践过的,有一定的理论基础和经验。 ,安装过程不会很困难。 系统安装成功后,我们将对电信行业用户行为数据集进行可视化分析。 之前我们也系统学习过如何对数据进行可视化分析。 另外,我们也可以按照林子玉老师的步骤来操作。 整个实验过程中用到的大部分技术我们之前都已经系统研究过,所以我们有相应技术的理论基础。
2.2 技术分析
(1)Linux系统:Linux是一个免费使用、自由传播的类Unix操作系统。 它是一个基于POSIX和UNIX的多用户、多任务、多线程、多CPU操作系统。 Linux继承了Unix以网络为中心的设计思想,是一个性能稳定的多用户网络操作系统。 本实验的所有步骤均在Linux系统下进行,Linux系统是整个实验的基础环境。
(2)MySQL:MySQL是一个真正的多用户、多线程的SQL数据库服务器。 SQL(结构化查询语言)是世界上最流行和标准化的数据库语言,它使存储、更新和访问信息变得更加容易。 MySQL是客户端/服务器结构的实现,它由服务器守护进程mysqld和许多不同的客户端程序和数据库组成。 MySQL是最好的关系数据库管理系统应用软件之一。 也是我们现阶段所学的用于存储数据的数据库。 它使用的语言是我们比较熟悉的; 我们主要用它来存储实验中用户行为分析的结果。
(3)Hadoop:Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper组成。 最基本、最重要的元素是底层文件系统HDFS(Hadoop分布式文件系统),用于存储集群中所有存储节点文件以执行MapReduce。 该程序的MapReduce 引擎。 Hadoop框架的核心设计是:HDFS和MapReduce。 HDFS为海量数据提供存储,MapReduce为海量数据提供计算。 本实验主要使用Hadoop中的组件HDFS来存储和管理电信用户行为数据集。
(4)Tomcat:Tomcat服务器是一个免费的开源Web应用服务器。 它是一个轻量级的应用服务器。 常用于中小型系统以及并发访问用户不多的场合。 它用于开发和调试JSP程序。 第一选择。 本实验主要用它来响应HTML页面的访问请求,呈现数据挖掘和分析的结果,并提供Web服务。
(5)Spring:Spring是一个开源的设计级框架,解决业务逻辑层与其他层之间的松耦合问题。 因此,它将面向接口的编程思想贯穿于整个系统应用之中。 Spring是一个轻量级的Java开发框架。 本实验主要使用Spring、Spring MVC框架和MyBatis框架相结合来开发Web应用程序并直观地展示数据分析结果。
(6)IntelliJ IDEA:是Java语言开发的集成开发环境。 被业界公认为最好的java开发工具之一,尤其在智能代码助手、自动代码提示、重构、J2EE支持、Ant、JUnit、CVS集成、代码审查、创新GUI设计等功能方面可以说是非凡的并且具有非常好的特征。 本实验主要使用IDEA进行程序开发,打包程序,生成应用JAR包。
(7)Spark:Spark是使用Scala语言实现的。 它是一种面向对象的函数式编程语言大数据分析工具 storm,可以像操作本地集合对象一样轻松地操作分布式数据集。 它具有运行速度快、易用性好、通用性强、可以在任何地方运行的特点。 本实验主要是对数据的计算和处理。
三种整体设计
电信用户行为分析主要基于Linux操作系统和基于Hadoop的大数据技术系统。 配置MySQL关系数据库,在MySQL中创建相应的数据库、表和视图,用户分析的结果将写入数据库。 在Linux环境中配置Web服务器Tomcat,使用IDEA工具生成应用JAR包,将Spring MVC框架中生成的文件复制到Tomcat中,将Web应用部署到Tomcat中,建立两者对应的连接,然后再次打开浏览器,输入对应的地址,就可以看到对应的数据图表。
3.1 可视化界面设计
本文获得的可视化页面主要包括:用户渠道分析折线图、用户请求方式对比柱状图、用户渠道饼图以及实际用户具体信息。
3.2 数据库设计
数据库主要建立在MySQL中。 本实验需要在MySQL中创建相应的数据库、表和视图。 新建数据库spark_web,用于存储后面创建的表和视图。 在数据库spark_web中创建数据汇总表sum,用于记录登录电信公司网站的用户汇总数据(包括:用户数、登录次数、在线时长等); 创建数据明细表detail,记录用户登录电信公司网站的时间信息(包括:用户号、首次登录时间、在线时间等); 创建数据原始明细表cleanMap,记录用户登录电信公司网站的详细信息(包括:用户号、登录时间、登录IP地址、登录区域、请求类型和渠道等); 创建区域维度表t_dim_area,记录区域代码对应的城市名称; 创建通道维度表t_dim_channel,记录通道码对应的通道名称; 创建请求类型表t_dim_requesttype记录了请求类型编码对应的请求类型名称。 数据库中还必须建立五个相应的视图,作为网页可视化分析的数据源。 用户行为分析的结果将写入数据库中创建的相应表中,数据库中的视图作为网页可视化分析的数据源; 以上就是数据库的设计。
3.3 网页设计
由于前期实验以及将数据集分析的结果存储到MySQL数据库中,因此使用Spring、SpringMVC、MyBatis框架和可视化图表ECharts进行编写
暂无评论内容