基于大数据的大学英语四六级写作指导

您所在的位置：网站首页 › 四六级作文技巧总结 › 基于大数据的大学英语四六级写作指导

基于大数据的大学英语四六级写作指导

2024-07-04 12:40| 来源: 网络整理| 查看: 265

目录................................................................................................................................ I

摘要................................................................................................................................ I

Abstract................................................................................................................................ II

1 引言................................................................................................................................... 1

1.1 开发背景及意义.................................................................................................... 1

1.2 研究现状................................................................................................................ 1

1.2.1 国内研究现状............................................................................................. 1

1.2.2 国外研究现状............................................................................................. 2

2 相关技术介绍................................................................................................................... 3

2.1 前端开发技术........................................................................................................ 3

2.1.1 HTML........................................................................................................... 3

2.1.2 CSS............................................................................................................... 3

2.1.3 JavaScript...................................................................................................... 3

2.2 后端开发技术........................................................................................................ 3

2.2.1 编程语言Python......................................................................................... 3

2.2.2 开发平台PyCharm..................................................................................... 3

2.3 自然语言处理........................................................................................................ 4

2.4 网络爬虫的简介.................................................................................................... 4

2.5 爬虫数据提取方法................................................................................................ 5

2.5.1 Xpath语法................................................................................................... 5

2.5.2 正则表达式................................................................................................. 5

2.5.3 bs4库............................................................................................................ 5

2.6 大数据相关技术.................................................................................................... 6

2.6.1 Hadoop......................................................................................................... 6

2.6.2 Spark............................................................................................................. 6

2.6.3 HDFS............................................................................................................ 6

3 系统设计的前期准备....................................................................................................... 7

3.1 数据来源................................................................................................................ 7

3.2 数据爬虫的环境配置............................................................................................ 7

3.3 数据库设计............................................................................................................ 9

3.3.1 数据库设计原则......................................................................................... 9

3.3.2 数据库概念设计....................................................................................... 10

3.3.3 数据库结构设计....................................................................................... 10

4 系统实现.......................................................................................................................... 11

4.1文本预处理............................................................................................................ 11

4.2 文本分析.............................................................................................................. 12

4.3 登录...................................................................................................................... 12

4.4 作业批改.............................................................................................................. 13

4.5 数据展示.............................................................................................................. 14

5 系统测试......................................................................................................................... 16

5.1 测试目的及意义.................................................................................................. 16

5.2 测试方法及环境.................................................................................................. 16

5.2.1 测试方法................................................................................................... 16

5.2.2 测试环境................................................................................................... 16

5.3 功能测试.............................................................................................................. 16

5.4 性能测试.............................................................................................................. 17

5.5 测试结果分析...................................................................................................... 17

6 总结与展望..................................................................................................................... 18

6.1 总结...................................................................................................................... 18

6.2 展望...................................................................................................................... 18

参考文献....................................................................................................................... 19

致谢..................................................................................................................................... 20

摘要

本文提出了基于大数据的大学英语四六级写作指导方案，旨在利用大数据技术提高学生的写作能力和应试水平。通过收集和分析四六级写作优秀范文，发现写作高分范文的写作技巧，为教学提供有力支持。针对学生写作中的常见问题，制定有针对性的教学策略和辅导方案，提高学生的写作能力和应试水平。通过大数据技术的应用，本研究发现了大学英语四六级写作的真题规律和高分范文的写作技巧。这些发现为教学提供了有力支持，可以帮助教师更好地指导学生写作。同时，本研究还针对学生写作中的常见问题，制定了有针对性的教学策略和辅导方案。这些策略和方案已经在实际教学中得到了应用，取得了良好的效果。

关键词：网络爬虫大数据大学英语四六级写作指导 Python

Abstract

This paper proposes a big data-based college English writing guidance program for CET-4 and CET-6, aiming to improve students' writing ability and test-taking level by using big data technology. Through the collection and analysis of CET-4 and CET-6 excellent writing model essay, referring to New Oriental excellent CET-4 and CET-6 excellent writing model essay over the years (cet4.koolearn.com cet6.koolearn.com) and other resources, the writing skills of high score writing model essay essay are found to provide strong support for teaching. Aiming at the common problems in students' writing, we should develop targeted teaching strategies and guidance programs to improve students' writing ability and test taking level. Through the application of big data technology, this study found the rules of CET-4 and CET-6 writing and the writing skills of high score essay. These findings provide strong support for teaching and can help teachers better guide students in writing. At the same time, this study also formulated targeted teaching strategies and guidance programs for students' common problems in writing. These strategies and schemes have been applied in practical teaching and achieved good results.

Key words: Web crawler Big data College English Iv and VI Writing guidance; Python

1 引言

1.1 开发背景及意义

随着大数据技术的不断发展，其在教育领域的应用也日益广泛。大学英语四六级考试作为我国大学生英语水平的重要衡量标准，其写作部分对于学生的语言表达能力和逻辑思维能力有较高要求。然而，学生在写作过程中常常存在语法错误、词汇贫乏、逻辑不清等问题，亟需有效的写作指导。本研究采用了大数据技术，包括数据采集、数据预处理、数据分析、结果呈现等步骤。首先，通过(1)四六级写作优秀范文，参考新东方历年优秀四六级优秀范文(cet4.koolearn.com cet6.koolearn.com)资源，沪江英语，每日英语听力，21世纪英语网的收集，构建起写作指导的大数据资源库。然后，通过数据预处理，清洗、去重、格式统一等步骤，为后续的数据分析做好准备。接着，利用数据挖掘和自然语言处理技术对数据进行分析，发现写作真题的规律和高分范文的写作技巧。最后，将分析结果以可视化形式呈现，便于教师和学生了解。

基于大数据的大学英语四六级写作指导方案能够充分利用大数据技术的优势，为写作教学提供有力支持。通过对高分范文的深度分析，能够发现写作的规律和高分范文的写作技巧，为学生提供有针对性的写作指导。同时，该方案还能够提高教师工作效率，实现个性化教学，提升学生的写作能力和应试水平。此外，该研究对于推动大数据在教育领域的应用和发展也具有一定的参考价值。

1.2 研究现状

随着大数据技术的发展和应用，教育领域正面临着前所未有的变革。大数据技术为教育研究提供了丰富的研究素材和方法，也为教育实践带来了新的可能性。在大学英语四六级写作教学中，大数据技术有着广泛的应用前景。本文将对基于大数据的大学英语四六级写作指导的国内外研究现状进行综述。

1.2.1 国内研究现状

在我国，充斥各式各类的写作评估项目。例如iWrite的自动评阅系统，该项目便包括了大学英语四六级写作指导，对学生的写作用词和一些常规的语句语法错误能得到有效改正。但却不能通过写作文字进行对于文章的情感分析，其有关于文章的内容及其文字感情仍需要教师自主判断。总结来说，国内现目前所提出的有关写作的智慧教学模式表现对于文章语句语法的纠正；对于文章结构组织的分析；文章语句的组织；对于特定文章类型的写作机制的分析。

近年来，国内学者开始关注大数据技术在教育领域的应用。这些研究主要集中在大数据技术的概念、特点、应用领域等方面。如李洪波探讨了大数据技术在教育领域的应用现状和发展趋势；陈丽分析了大数据技术对教育改革的影响。在写作教学领域，国内学者也开始尝试利用大数据技术进行教学研究和实践。如李晓红基于大数据分析技术，探讨了大学英语写作教学中的问题及对策；张丽华以大数据为背景，研究了大学英语四六级写作教学模式改革。在写作评估方面，大数据技术也显示出巨大的潜力。如王彦娟探讨了基于大数据的英语写作自动评分系统的构建；赵瑞分析了大数据技术在英语写作教学评估中的应用。

1.2.2 国外研究现状

在国外，线上教学有关的自主教学模式早已普及。尤其在身为在线教育发源地的美国，在线教育普及率位居第一，63%的知名大学预计将在2030年前提供在线全学位，至少600万学生参与在校的高等教育项目。同时自然语言处理项目早在2003年Bengio等人就提出了基于神经网络的语言模型，使语言模型的性能得到显著提升。2013年Google提出了谷歌神经机器翻译系统（Google Neural Machine Translation，GNMT）将神经网络应用于机器翻译，取得了较好的成效。在国外，大数据技术在教育领域的应用研究也取得了显著成果。如Breslow et al.探讨了大数据技术在教育数据挖掘中的应用；Siemens and Baker提出了基于大数据的教育分析方法。在写作教学领域，国外学者也尝试利用大数据技术进行教学研究和实践。如Kahng基于大数据分析技术，探讨了英语写作教学中的问题及对策；Stevens以大数据为背景，研究了英语写作教学模式改革。在写作评估方面，国外学者也开展了相关研究。如Eckes探讨了基于大数据的英语写作自动评分系统的构建；Mazur分析了大数据技术在英语写作的评估。

综上所述，无论在国内还是国外，基于大数据的大学英语四六级写作指导研究都取得了一定的成果。然而，这些研究仍存在一些不足之处，如研究方法相对单一，研究对象较为局限等。未来研究应更加关注大数据技术在写作教学中的应用，以期为写作教学实践提供更为有效的指导。同时，研究者也应关注大数据技术在教育领域的发展动态，不断探索新的研究方法和技术，为教育改革和发展贡献力量。

2 相关技术介绍

2.1 前端开发技术 2.1.1 HTML

HTML（Hyper Text Markup Language）是一种用于创建网页的标记语言。它使用标签来描述网页的结构和内容，并通过标签之间的嵌套和属性来定义网页的样式和行为。

HTML是一门描述性语言，它不具备编程的能力，而是用于描述网页的结构和内容。通过使用不同的HTML标签，可以创建标题、段落、列表、链接、图像等元素，并将它们组织在一起形成一个完整的网页。

2.1.2 CSS

层叠样式表(Cascading Style Sheets, CSS)是一种用于设置HTML页面上各类元素样式的语言，例如元素的颜色、字体、边界格式等[9]。早期HTML的标签上也自带许多属性，用于实现类型CSS的功能。

2.1.3 JavaScript

JavaScript是一种脚本语言，用于在网页上实现交互和动态效果。它可以在网页的HTML代码中嵌入，并由浏览器解释和执行。JavaScript可以用于处理表单验证、动态内容加载、用户交互等各种任务

2.2 后端开发技术

本文设计以Python为开发语言，PyCharm为开发平台。

2.2.1 编程语言Python

本次设计中使用的编程语言是Python。Python是一个非常好用的编程语言，因为Python通俗易懂、非常适合于零基础的入门，特别是在爬虫领域中具有得天独厚的优点，成了首选编程语言。

2.2.2 开发工具Pycharm

PyCharm是由JetBrains打造的一款Python IDE(Integrated Development Environment，集成开发环境)，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、项目管理、代码跳转等功能。此外，该IDE提供了一些高级功能，用于支持Django框架下的专业Web开发。

2.3 自然语言处理

自然语言处理（Natural Language Processing，简称NLP）是一门交叉学科，它结合了计算机科学、人工智能和语言学的知识，旨在使计算机能够理解、解释和生成人类语言。NLP的核心是构建能够理解和交流自然语言的算法，从而缩小人与机器之间的交流鸿沟。自然语言处理可以分为两大类：自然语言理解（NLU）和自然语言生成（NLG）。自然语言理解关注于机器对人类语言的理解和解释，包括语法分析、情感分析、实体识别等。而自然语言生成则是关注于机器如何以自然、流畅的语言输出信息，包括自动文摘、机器翻译和对话系统等。

自然语言处理技术的发展已经极大地推动了许多行业的创新，例如在线客服、智能搜索和内容推荐等。随着深度学习和大数据技术的进步，自然语言处理的应用将更加广泛和深入。例如，通过结合多模态学习（Multimodal Learning），NLP系统将能够更好地理解和处理包括文本、图像和声音在内的多种类型的数据，从而提供更为丰富和自然的交互体验。同时，随着计算能力的提高和算法的优化，NLP技术将在未来持续发展，为人类社会的进步做出更多的贡献。自然语言处理（NLP）的发展历史可以追溯到20世纪50年代，从最初的规则基础的方法，到现代的深度学习技术，NLP领域经历了令人震撼的进步。

2.4 网络爬虫的简介

网络爬虫根据系统结构与技术实现可划分为通用网络爬虫、聚焦式网络爬虫、深层网络爬虫、增量式网络爬虫这四个类别。一般的互联网搜索引擎如百度，谷歌等都可以看做是一个规模庞大的互联网爬虫系统，它们都属于通用型互联网爬虫的类别[3]。

通用爬虫流程图如下图2.1所示。

图2.1 通用爬虫流程图

就其基本过程来说，一，获取URL;其二，解析信息;其三，对所获得的信息做出适当的处理，并设置种子URL[4]。

2.5 爬虫数据提取方法

在获取了所要求的HTML语言以及网页信息之后，紧接着的工作便是将所有要求的信息都给收集起来，一般有三个方法，依次为Xpath语言，正则表达式以及bs4库，也只有学会了这三个方法，才能说HTML网页上的所有信息都能够获取了。

2.5.1 Xpath语法

Xpath就是XML路径语句，这是一个专门用来定义在XML中文件的某组成部分地址的语句。Xpath引入了XML的树形结构，提供不同的结点，包含元素结点，属性节点以及文字结点，并提高用户在构造树上查找结点的能力。

2.5.2 正则表达式

正则表示是对字符串(包含一般特殊字符(比如，a到z中间的字母)和特别字符(叫做"元字符"))使用的一类逻辑公式，就是说用之前已经定义好的一些特定字符、及这些特定字符的组合，组成一个"规则字符串"，这种"规定字符串"用于表示对字符串的一条过滤逻辑。正则表示是一组文本模型，该模型表示了在检索文章时要对应的一组或众多字符串。

2.5.3 bs4库

Beautiful Soup是一种HTML/XML的分析器，它最重要的用途是分析并获取HTML/XML统计信息。简要而言，Beautiful Soup就是一种可以从HTML字符串中获取数据的方法，简称bs4。

2.6 大数据相关技术 2.6.1 Hadoop

Hadoop是一个用Java语言实现的开源软件框架，它是Apache旗下的项目。Hadoop的主要目标是处理大规模数据集，并且能够在大量计算机集群上进行分布式处理。Hadoop提供了一个简单的编程模型，使得开发人员可以方便地进行大数据处理

2.6.2 Spark

Spark是一个开源的分布式计算系统，它提供了高效的大规模数据处理能力。Spark可以在集群中并行处理数据，并且具有内存计算的优势，因此可以比传统的MapReduce计算框架更快地处理大规模数据。

2.6.3 HDFS

HDFS（Hadoop Distributed File System）是Apache Hadoop生态系统中的一部分，它是一个分布式文件系统，用于存储和处理大规模数据集。HDFS设计用于在具有大量节点的集群上运行，并提供高容错性和高吞吐量的数据访问。

3 系统设计的前期准备

3.1 数据来源

大数据时代的大学英语四六级写作指导，21世纪英语网每日英语听力(https://www.i21st.cn/listening/)，沪江英语(https://www.hjenglish.com/)，数据来源可以包括以下几个方面：

1. 学生写作数据：收集学生历年大学英语四六级写作的真题、模拟题及答案，包括不同类型如议论文、说明文、图表作文等。通过对这些数据的分析，了解学生在写作过程中常犯的错误、写作技巧的掌握情况等，从而为学生提供有针对性的指导。

2. 教师评分数据：收集教师对学生作文的评分数据，包括作文得分、失分原因等。通过分析这些数据，了解教师评分的标准和偏好，为学生提供更符合评分标准的写作建议。

3. 网络资源：利用大数据技术，从互联网上收集与大学英语四六级写作相关的优质文章、范文、写作技巧等资源，为学生提供丰富的学习资料。

4. 学习者行为数据：通过学习平台、在线教育网站等收集学习者在学习英语写作过程中的行为数据，如学习时长、学习内容、练习频率等。通过分析这些数据，了解学习者的学习习惯和需求，为其提供个性化的写作指导。

5. 社交媒体数据：从社交媒体上收集与大学英语四六级写作相关的讨论、经验分享等数据，了解学生对于写作的心得体会和困惑，为学生提供实用的写作技巧和建议。

通过以上数据来源，结合大数据技术进行深入挖掘和分析，为大学英语四六级写作指导提供有力支持。

3.2 数据爬虫的环境配置

下载安装开发语言Python，开发平台PyCharm，requests库，selenium。

下载安装好Python3.8，如图3.1所示。

图3.1 Python3.8已安装

下载安装好编译工具：PyCharm，如图3.2所示。

图3.2 PyCharm已安装

安装好requests库，如图3所示。

图3.3 requests库已安装

Selenium环境配置

下载对应版本谷歌浏览器的驱动，谷歌浏览器版本是100.0.4896.60，所以下载了对应的100.0.4896.60的驱动。如下图3.4所示。

图3.4 谷歌浏览器驱动

安装好selenium后，在PyCharm平台，通过file->setting->Project Interpreter,在本机的python3.8配置selenium，如下图3.5所示。

图3.5 PyCharm内配置好selenium环境

爬虫代码如下：import csv

import os, django

import sys

path = os.path.dirname(os.path.abspath(os.path.dirname(os.path.abspath(__file__))))

sys.path.append(path)

os.environ.setdefault("DJANGO_SETTINGS_MODULE", "a.settings") # project_name 项目名称

django.setup()

from django.db.models import Q

from keshihua import models

import datetime

from bs4 import BeautifulSoup

from selenium import webdriver

import time

import random

import re

import traceback

import copy

wd = webdriver.Chrome(os.getcwd() + '\chromedriver.exe')

wd.maximize_window()

wd.implicitly_wait(20)

with open(os.path.dirname(os.path.abspath(__file__)) + r'\stealth.min.js') as f:

js = f.read()

wd.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {

"source": js

})

def get_pageurl(url, count,name):

wd.get(url)

for i in range(count):

time.sleep(random.uniform(3.5, 5.5))

wd.execute_script("window.scrollTo(0, document.body.scrollHeight)")

soup = BeautifulSoup(wd.page_source,'html.parser')

divs = soup.select('div.vue-recycle-scroller__item-view')

for row in divs:

try:

content = row.select('div.detail_wbtext_4CRf9')[0].text.strip()

shijian = row.select('a.head-info_time_6sFQg')[0].attrs.get('title')

zhuanfa = row.select('span.toolbar_num_JXZul')[0].text.strip()

if '万' in zhuanfa:

zhuanfa = str(zhuanfa).replace('万','')

try:

zhuanfa = float(zhuanfa.strip()) * 10000

except:

zhuanfa = 10000

else:

try:

zhuanfa = float(zhuanfa.strip()) * 10000

except:

zhuanfa = 10000

pingluns = row.select('span.toolbar_num_JXZul')[1].text.strip()

if '万' in pingluns:

pingluns = str(pingluns).replace('万','')

try:

pingluns = float(pingluns.strip()) * 10000

except:

pingluns = 10000

else:

pingluns = str(pingluns).replace('万', '')

try:

pingluns = float(pingluns.strip()) * 10000

except:

pingluns = 10000

dianzhan = row.select('span.woo-like-count')[0].text.strip()

if '万' in dianzhan:

dianzhan = str(dianzhan).replace('万','')

try:

dianzhan = float(dianzhan.strip()) * 10000

except:

dianzhan = 10000

else:

try:

dianzhan = float(dianzhan.strip()) * 10000

except:

dianzhan = 10000

url = row.select('a.head-info_time_6sFQg')[0].attrs.get('href')

print(shijian,zhuanfa,pingluns,dianzhan,content,url)

except:

print(traceback.format_exc())

continue

with open('result.csv','a+',encoding='utf-8',newline='')as f:

f_csv = csv.writer(f)

f_csv.writerow([shijian,zhuanfa,pingluns,dianzhan,content,url])

print(len(divs))

time.sleep(100)

if __name__ == '__main__':

try:

topic_xinxis = [('英语写作 ','https://s.siliuj.com/weibo?q=%E6%97%A5%E6%9C%AC%E6%A0%B8%E5%BA%9F%E6%B0%B4')

]

wd.get('https://siliuji.com/?topnav=1&mod=logo')

time.sleep(2)

input('手动登录然后点击开始爬取数据:')

for datas1 in topic_xinxis:

data = datas1[-1]

name = datas1[0]

get_pageurl(data, 3,name)

# time.sleep(random.randint(0, 3)) # 暂停0~3秒的整数秒，时间区间：[0,3

except Exception as e:

print(traceback.format_exc())

time.sleep(100)

finally:

wd.close()]

3.3 数据库设计

数据库的设计是系统开发中至关重要的一环，一个好的数据库结构能够高效合理的读写数据，保障系统数据的稳定运行，良好的数据结构甚至能大幅提高数据的利用率。

3.3.1 数据库设计原则

基于大数据的大学英语四六级写作指导使用MySQL数据库，设计的基本原则如下：

每一张表必须有primary key；字段不能同时包含多种含义，避免引起混乱；数据库表中的记录是唯一的。 3.3.2 数据库概念设计

系统将借助E-R图来反映数据库中各实体之间的关系，E-R图可以有效地帮助我们深入了解系统整体架构，如图3.6所示。

图3-6 E-R图

3.3.3 数据库结构设计

为了更加详细的理解每个实体的属性信息，将建立系统的数据库表，本节针对核心的字段进行说明。

用户信息表

用户信息表能够存储用户信息，用户信息表如3-1所示。

表 3.1用户信息表

字段名称

类型

长度

字段说明

主键

bigint

主键

addtime

timestamp

创建时间

zhanghao

varchar

200

账号

mima

varchar

200

密码

xingming

varchar

200

姓名

nianling

int

年龄

xingbie

varchar

200

性别

shouji

varchar

200

手机

touxiang

longtext

255

头像

money

float

余额

（2）四六级信息表

四六级信息表能够存储四六级信息，四六级信息表如3-2所示。

表 3.2四六级信息表

字段名称

类型

长度

字段说明

主键

bigint

主键

addtime

timestamp

创建时间

userid

bigint

用户id

goodid

bigint

四六级id

discountpri

float

内容

4 系统实现

这一章节将本次设计所实现的结果用图的形式展现出来。

4.1文本预处理

定义Field：使用torchtext的Field类来定义文本字段的处理方式，包括分词、转小写等操作。

定义Dataset：使用torchtext的TabularDataset类来读取数据集文件，并将每个样本的字段映射到对应的Field对象。

建立vocab：使用torchtext的build_vocab方法来构建词汇表，将训练集中出现的单词映射到唯一的整数标识。

构造迭代器：使用torchtext的Iterator类来构造数据集的迭代器，方便对数据进行批量处理。

如下图示例代码

1-import torchtext

2-from torchtext.data import Field, TabularDataset, Iterator

# 定义Field

text_field = Field(sequential=True, tokenize='spacy', lower=True)

label_field = Field(sequential=False, use_vocab=False)

# 定义Dataset

train_data, test_data = TabularDataset.splits(

path='data',

train='train.csv',

test='test.csv',

format='csv',

fields=[('text', text_field), ('label', label_field)]

)

# 建立vocab

text_field.build_vocab(train_data)

# 构造迭代器

train_iter, test_iter = Iterator.splits(

(train_data, test_data),

batch_sizes=(32, 32),

sort_key=lambda x: len(x.text),

sort_within_batch=True,

repeat=False

)

# 打印示例数据

for batch in train_iter:

print(batch.text)

print(batch.label)

break

4.2 文本分析

首先将文本分割成单个的词语或标记，以便进一步处理。常见的分词方法有基于规则的方法和基于统计的方法。去除常见的无实际含义的词语，如“的”、“是”、“在”等。这些词语对于文本分析任务通常没有太大的帮助，去除它们可以减少数据噪声。将单词还原为其原始形式，以减少不同形式的词对于文本分析的影响。词干提取是一种简化的方法，通过去除词缀来得到词干；而词形还原则是将单词还原为其基本形式。使用循环神经网络（Recurrent Neural Network，RNN）来建模上下文信息，并通过softmax层来预测每个词汇的词性

结合规则匹配和机器学习方法，利用规则匹配进行初步的实体识别，然后使用机器学习方法进行进一步的分类和修正。利用机器学习算法训练模型，从而预测词语的重要性，利用算法支持向量机（SVM）

然后利用动态规划的思想，通过递推计算每个时刻的最大概率路径。具体步骤如下：

初始化：设置初始时刻的概率为1，其他时刻的概率为0。

递推计算：对于每个时刻，计算到达当前状态的最大概率路径。这个概率路径由上一个时刻的最大概率路径和当前状态的转移概率以及观测概率决定。

回溯路径：在递推计算过程中，记录每个时刻的最大概率路径。最后根据这些路径回溯得到最可能的隐藏状态序列。

利用以下公式去输出结果：

特征函数：f(y, x)表示在给定输入序列x和输出标签序列y的情况下，特征函数f的取值。

参数向量：w表示特征函数的权重向量。

条件概率分布：P(y|x)表示在给定输入序列x的情况下，输出标签序列y的条件概率分布。 P(y|x) = exp(∑w*f(y, x)) / Z(x) HMM代码公式：

隐藏状态转移概率：A表示隐藏状态之间的转移概率矩阵，其中A[i][j]表示从隐藏状态i转移到隐藏状态j的概率。

观测状态发射概率：B表示隐藏状态到观测状态的发射概率矩阵，其中B[i][j]表示在隐藏状态i的情况下观测到观测状态j的概率。

初始隐藏状态概率：π表示初始时刻的隐藏状态概率分布，其中π[i]表示初始时刻为隐藏状态i的概率。

前向算法：计算给定观测序列的前向概率。

后向算法：计算给定观测序列的后向概率。

维特比算法：用于解码，找到最可能的隐藏状态序列。

4.3 登录

如图4.1是登录模块，所有使用网站的用户和管理员都必须进行网站的登录，只有通过输入身份信息并进行网站的验证，才能顺利登录进入网站。用户需要根据页面上的提示，输入对应的身份信息和密码，进行网站的登录，网站会对用户输入的信息进行审核验证，只有输入的信息与数据库中存储的信息完全正确，才能顺利登录进入网站，有一项信息输入的不正确，网站就会做出提示，提示用户重新输入正确的信息，当输入的信息完全正确之后，并且通过了网站的验证之后，才能顺利的登录进入网站实现所有的功能操作。

图4.1 登录模块

4.4 作业批改

如图4.2是作业批改模块。自动批改是利用自然语言处理技术，对学生的英语作文进行自动批改，包括语法、拼写、用词等方面的错误。通过大数据分析，自动批改系统可以不断优化，提高批改的准确性和效率。具体方法如下：

1. 预处理：首先，对学生的英语作文进行预处理，包括使用正则表达式去除标点符号、使用字符串的lower()为小写等，以便后续处理。

2. 分词：使用分词工具 jieba（结巴分词）对作文进行分词，将文本拆分成单词和短语。

3. 语法检查：利用自然语言处理库对作文进行语法检查。这些库可以识别出作文中的语法错误，并给出修改建议。

4. 拼写检查：使用拼写检查工具对作文进行拼写检查。Gutenberg语料库可以识别出作文中的拼写错误，并给出正确的拼写建议。

5. 词汇推荐：利用大数据分析，结合上下文和语义，为学生提供更合适的词汇替换建议。这可以通过词义消歧、语义角色标注等技术实现。

6. 错误标注：将识别出的错误进行标注，如语法错误、拼写错误等，方便学生查看和修改。

图4.2 作业批改

4.5 数据展示

如图4.3是数据展示模块。包括语法错误、词汇错误、优秀作文、单词频率等。数据可视化可以通过以下方法实现：

1. 语法错误可视化：首先，通过自然语言处理技术对学生的作文进行语法错误识别。然后，将识别出的语法错误进行分类统计，如主谓一致、时态错误等。最后，利用数据可视化工具将语法错误的统计结果以图表的形式展示，让学生能够直观地了解自己的语法错误类型和频次。

2. 词汇错误可视化：首先，通过自然语言处理技术对学生的作文进行词汇错误识别。然后，将识别出的词汇错误进行分类统计，如拼写错误、词义错误等。最后，利用数据可视化工具将词汇错误的统计结果以图表的形式展示，让学生能够直观地了解自己的词汇错误类型和频次。

3. 优秀作文可视化：首先，通过大数据分析，识别出优秀的作文。然后，对优秀作文的写作技巧进行统计分析，如论证方法、句型运用等。最后，利用数据可视化工具将优秀作文的统计结果以图表的形式展示，让学生能够直观地了解优秀作文的写作技巧分布。

4. 单词频率可视化：首先，通过自然语言处理技术对学生的作文进行分词，并统计每个单词的出现频率。然后，利用数据可视化工具将单词频率的统计结果以图表的形式展示，让学生能够直观地了解自己作文中单词的使用频率。

图4.3 可视化

5 系统测试 5.1 测试目的及意义

本课题所开发的系统功能模块较多且复杂，在开发过程中可能会出现漏洞。因此，需要对系统进行详细完整的测试，尽可能测试出所有可能的bug，并完成修复，才能保证系统顺利上线[13-14]。

软件测试的目的是在系统正常运行的情况下，检测系统是否存在安全问题，保证系统安全、稳定上线。测试工作者在测试的过程中应保持严谨的工作态度，采用科学的测试方法，尽可能的在测试阶段发现问题，解决问题，保证系统的质量。

5.2 测试方法及环境 5.2.1 测试方法

测试一般分为黑盒测试和白盒测试两类，本文将模拟用户的角色，尽可能全面的使用用户的功能，对系统进行黑盒测试，判断测试的功能模块是否满足预期结果[15]。

5.2.2 测试环境

（1）硬件环境

本系统的开发平台搭建在Windows10系统中，其他系统仍可类似搭建。系统处理器选择的是Intel(R) Core(TM) i7-10870H CPU @ 2.20GHz，运行内存为6G，硬盘空间为1T

（2）软件环境

本系统的开发工具为PyCham，数据库选择MySQL v8.0.27及其他软件运行环境，系统在Google浏览器运行。

5.3 功能测试

功能测试的目的是为了验证系统各功能是否能够正常运行，是否还存在缺陷，是否符合预期开发目标。

表5-1 登录功能测试

用例编号

测试功能

操作步骤

预期输出

测试结果

001

1.点击注册按钮

2.填写注册信息并提交

注册成功并跳转到登录界面

测试通过

002

输入错误密码

1.输入账号和错误的密码

2.提交

登录失败，弹框提示“密码错误”

测试通过

003

输入空密码

1.输入用户名

2.提交

登录失败，弹框提示“密码为空”

测试通过

004

输入空用户名

1.输入密码

2.提交

登录失败，弹框提示“用户名为空”

测试通过

005

输入用户名和密码

1.输入用户名和密码

2.提交

登录成功并跳转到主页面

测试通过

5.4 性能测试

本文从3方面对系统进行性能测试，具体测试结果如表5-2所示。

表5-2 性能测试

测试指标

需求属性

需求值

结果值

负载

500位用户持续运行

系统稳定运行

系统保持稳定运行

100位用户持续运行

系统稳定运行

系统保持稳定运行

响应时间

系统页面最长响应时间

小于5秒

3秒

系统页面平均响应时间

小于2秒

1秒

首屏时间

系统打开到第一次显示内容

小于5秒

3秒

5.5 测试结果分析

以上完成了整个系统的功能、性能的测试。从测试结果可以确认，系统的功能完毕，性能达标，能够满足用户的需求。系统设计合理，功能完善，性能突出，具有较大的发展潜力。

6 总结与展望

6.1 总结

本文完成了基于大数据的大学英语四六级写作指导。从最初的的选题确定，经历了很长时间的摸索，查阅了大量资料，也经过了代码的反复修改和调试，最终完成了整个毕业设计。

本次基于大数据的大学英语四六级写作指导是我第一次充分认识到一个网站的开发和研究，回归整个的设计开发过程，其中有艰辛也有收获。此次毕业设计是由我自己独立完成的，从开始的选题到后面的软件的设计，每一个阶段都是根据软件开发的流程实现的，从选题到最终的功能设计期间，我也遇到了很多的难题，但每当出现问题的时候，我都会不断的查找相关的资料信息，或者是向教师询问，成功地解决问题并完成了本次基于大数据的大学英语四六级写作指导的设计与实现。通过这次软件开发和设计，我学到了很多知识，同时我也很好地利用和结合了我在课堂上学到的知识，巩固了我以前学过的所有知识，这次软件的开发将会是我一生都难忘的经历，为我今后的学习明确了方向。

6.2 展望

本系统虽然能够满足用户的需求，但仍然存在需要优化的地方：

系统缺少推荐功能，基于用户个人信息和喜好，提供智能推荐服务；

（2）在兼容性方面，各个版本的浏览器内核是不同的，因此系统部分功能在浏览器上会存在显示问题，后续还需要在不同版本的浏览器上进行兼容性测试和优化。

本人会在后续的学习中，对系统进行进一步的改进，使系统更加符合未来用户的需求。

参考文献

[1] 胡光明.基于大数据的高职学生英语写作错误特点分析--以中介语为载体[J].现代教育科学, 2016(9):5.

[2] 王丹.基于大数据的高职英语类专业学生实践能力培养研究——以高职应用英语专业学生英语写作教学设计为例[J].教育现代化：电子版, 2016(33):3.

[3] 刘涛.基于大数据时代的大学英语写作教学改革分析[J].电子测试, 2016(7X):2.DOI:10.3969/j.issn.1000-8519.2016.14.043.

[4] 刘露,戴日新.基于大数据的高职英语写作教学新模式[J].岳阳职业技术学院学报, 2016, 31(3):4.

[5] 许阳.基于大数据时代高职英语写作教学设计[J].校园英语, 2015(33):1.

[6] 李艳慧.基于大数据的高职英语写作教学课堂设计[J].辽宁高职学报, 2016, 18(9):3.

[7] 马杰.基于大数据的高职学生英语写作中的词汇错误分析[J].课程教育研究:新教师教学, 2016, 000(015):59-60.

[8] 肖付良.基于大数据的高职英语写作教学改革刍议[J].教育现代化:电子版, 2016.

[9] 徐学敏.大数据驱动的大学英语写作动态评估模型建构与实证研究[J].江苏经贸职业技术学院学报, 2022(5):80-83.

[10] 徐金诚.基于大数据背景下高职英语写作教学问题探析[J]. 2020.

[11] 肖明惠.基于大数据的高职英语写作教学设计[J].科教导刊旬刊, 2016.DOI:CNKI:SUN:KJDX.0.2016-09-034.

[12] 余涛,王兴华,李艳.基于大数据时代的高校英语写作翻译教学创新研究[J].新东方英语：中英文版, 2019(1):1.

[13] 陈慧媛.英语写作语言表现的测量及测量指标的研究[M].科学出版社,2015.

[14] 谭锴,谭攀登.基于大数据的高职学生英语写作研究——以句酷批改网为例[J].长江丛刊, 2016(19):2.

[15] 贾红瑜.浅谈基于大数据的高职英语写作教学设计[J].散文百家(新语文活页), 2017(5).

致谢

六月的校园恍如仙境，令人心驰神往，六月是繁忙的季节，也是令人难忘的季节，六月，我完成了毕业论文的写作，站在了毕业的门槛上。在论文完成之际，对在撰写论文过程中给予我支持和帮助的家人、老师和同学，表示深深的感谢！

这篇论文是在我的导师的悉心指导下完成的。从论文的拟题到资料的查询、写作思路的梳理都凝聚了老师诸多的心血。每一次，老师都会仔细的为我批阅，给我提出了许多可行性的指导，他常强调，要严格遵守学术道德和学术规范，要以一颗严谨的学术心态去完成学业。在此，请允许我向尊敬的导师表示感谢！

感谢和我一起生活了四年的舍友们，我们匆匆告别，走向各自的远方，内心只有永恒的思念和祝福！

最后，郑重的感谢所有默默无闻、无私奉献的老师们，老师，您辛苦了！

【本文地址】

基于大数据的大学英语四六级写作指导

基于大数据的大学英语四六级写作指导

今日新闻

推荐新闻