【计算机视觉（CV）】基于高层API实现宝石分类

您所在的位置：网站首页 › 计算机视觉api › 【计算机视觉（CV）】基于高层API实现宝石分类

【计算机视觉（CV）】基于高层API实现宝石分类

2023-09-10 13:25| 来源: 网络整理| 查看: 265

(文章目录)

前言 (一)、任务描述

图像分类是根据图像的语义信息将不同类别图像区分开来，是计算机视觉中重要的基本问题

宝石识别属于图像分类中的一个细分类问题

实践平台：百度AI实训平台-AI Studio

实践环境：Python3.7，PaddlePaddle2.0

(二)、环境配置

本实践代码运行的环境配置如下：Python版本为3.7，PaddlePaddle版本为2.0.0，操作平台为ＡI Studio。大部分深度学习项目都要经过以下几个过程：数据准备、模型配置、模型训练、模型评估。

import paddle import numpy as np import matplotlib.pyplot as plt print(paddle.__version__) # cpu/gpu环境选择，在 paddle.set_device() 输入对应运行设备。 # device = paddle.set_device('gpu') 一、方案设计 (一)、深度神经网络(DNN)

深度神经网络（Deep Neural Networks，简称DNN）是深度学习的基础，其结构为input、hidden（可有多层）、output，每层均为全连接。

在这里插入图片描述

二、数据集介绍数据集文件名为archive_train.zip,archive_test.zip。该数据集包含25个类别不同宝石的图像。这些类别已经分为训练和测试数据。图像大小不一，格式为.jpeg。在这里插入图片描述

请勿将本数据集用于商务用途。

三、数据集预处理

本案例主要分以下几个步骤进行数据预处理：

（1）解压原始数据集

（2）按照比例划分训练集与验证集

（3）乱序，生成数据列表

（4）定义数据读取器，转换图片

(一)、导入相关包

首先我们引入本案例需要的所有模块

#导入所需的包 import os import numpy as np from PIL import Image import matplotlib.pyplot as plt import paddle import paddle.nn as nn (二)、生成图像列表 ''' 参数配置 ''' train_parameters = { "input_size": [3, 224, 224], #输入图片的shape "class_dim": 25, #分类数 "src_path":"data/data55032/archive_train.zip", #原始数据集路径 "target_path":"/home/aistudio/data/dataset", #要解压的路径 "train_list_path": "./train.txt", #train_data.txt路径 "eval_list_path": "./eval.txt", #eval_data.txt路径 "label_dict":{}, #标签字典 "readme_path": "/home/aistudio/data/readme.json", #readme.json路径 "num_epochs": 40, #训练轮数 "train_batch_size": 32, #批次的大小 "learning_strategy": { #优化函数相关的配置 "lr": 0.0001 #超参数学习率 } }

输出结果如下图1所示：

在这里插入图片描述

(三)、定义数据集

通过继承paddle.io.Dataset对数据集进行定义

import paddle import paddle.vision.transforms as T import numpy as np from PIL import Image class FoodDataset(paddle.io.Dataset): """ 数据集类的定义 """ def __init__(self, mode='train_data'): """ 初始化函数 """ self.data = [] with open(f'{mode}.txt') as f: lines = f.readlines() np.random.shuffle(lines) for line in lines: info = line.strip().split('\t') if len(info) > 0: self.data.append([info[0].strip(), info[1].strip()]) def __getitem__(self, index): """ 根据索引获取单个样本 """ image_file, label = self.data[index] img = Image.open(image_file) img = img.resize((img_size, img_size), Image.ANTIALIAS) img = np.array(img).astype('float32') # img = img[:,:,:] img = img.transpose((2, 0, 1))[:3,:,:] #读出来的图像是rgb,rgb,rbg..., 转置为 rrr...,ggg...,bbb... # print(img.shape) img = img[:,:,:]/255.0 # if img.size!=img_size*img_size*3: # print('error-----------------------',img.size,img.shape) return img, np.array(label, dtype='int64') def __len__(self): """ 获取样本总数 """ return len(self.data) (四)、定义数据集训练器 # 训练的数据提供器 train_dataset = FoodDataset(mode='train_data') # 测试的数据提供器 eval_dataset = FoodDataset(mode='test_data') # 查看训练和测试数据的大小 print('train大小：', train_dataset.__len__()) print('eval大小：', eval_dataset.__len__()) # 查看图片数据、大小及标签 # for data, label in train_dataset: # print(data) # print(np.array(data).shape) # print(label) # break

输出结果如下图2所示：

在这里插入图片描述

三、定义模型 from paddle.nn import Linear import paddle.nn.functional as F import paddle #定义DNN网络 class MyDNN(paddle.nn.Layer): def __init__(self): super(MyDNN,self).__init__() self.hidden1 = Linear(img_size,512) self.hidden2 = Linear(512,256) self.hidden3 = Linear(256,128) self.hidden4 = Linear(3*img_size*128,labels_number) def forward(self,input): x = self.hidden1(input) x =F.relu(x) x = self.hidden2(x) x = F.relu(x) x = self.hidden3(x) x = F.relu(x) x = paddle.reshape(x, shape=[-1,3*img_size*128]) x = self.hidden4(x) y = F.softmax(x) return y 四、模型封装 network = MyDNN() model = paddle.Model(network) # 模型封装 # 配置优化器、损失函数、评估指标 model.prepare(paddle.optimizer.Adam(learning_rate=0.001, parameters=model.parameters()), paddle.nn.CrossEntropyLoss(), paddle.metric.Accuracy()) # 可视化模型结构 # paddle.summary(network, (3,225,225)) 五、训练回调函数 # 训练可视化VisualDL工具的回调函数 visualdl = paddle.callbacks.VisualDL(log_dir='visualdl_log') # 启动模型全流程训练 model.fit(train_dataset, # 训练数据集 eval_dataset, # 评估数据集 epochs=20, # 训练的总轮次 batch_size=64, # 训练使用的批大小 verbose=1, # 日志展示形式 callbacks=[visualdl]) # 设置可视化

输出结果如下图5所示：

在这里插入图片描述

六、模型评估 # 模型评估，根据prepare接口配置的loss和metric进行返回 result = model.evaluate(eval_dataset, verbose=1) print(result) # 读取图片 def load_image(path): img = Image.open(path) img = img.resize((img_size, img_size), Image.ANTIALIAS) img = np.array(img).astype('float32') img = img.transpose((2, 0, 1)) img = img/255.0 print(img.shape) return img 七、模型预测 # 读取模型准备预测 model_state_dict = paddle.load('finetuning/model.pdparams') model = MyDNN() model.set_state_dict(model_state_dict) model.eval（) # 读取图片并预测 data = load_image('data/data55032/test/Alexandrite/alexandrite_18.jpg') ceshi = model(paddle.to_tensor(data)) id2label = {v:k for k,v in label2id.items()} print('预测的结果为:',id2label[np.argmax(ceshi.numpy())]) 总结

本系列文章内容为根据清华社出版的《自然语言处理实践》所作的相关笔记和感悟，其中代码均为基于百度飞桨开发，若有任何侵权和不妥之处，请私信于我，定积极配合处理，看到必回！！！

最后，引用本次活动的一句话，来作为文章的结语～(￣▽￣～)~：

【**学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。**】

【本文地址】

【计算机视觉（CV）】基于高层API实现宝石分类

【计算机视觉（CV）】基于高层API实现宝石分类

今日新闻

推荐新闻