科大讯飞语音合成(tts)windows sdk代码学习笔记

您所在的位置：网站首页 › 离线tts语音引擎语音包讯飞 › 科大讯飞语音合成(tts)windows sdk代码学习笔记

科大讯飞语音合成(tts)windows sdk代码学习笔记

2024-01-15 11:50| 来源: 网络整理| 查看: 265

#include stdlib.hstdio.hwindows.hconio.h conio是Console Input/Output（控制台输入输出）的简写，其中定义了通过控制台进行数据输入和数据输出的函数，主要是一些用户通过按键盘产生的对应操作，比如getch()函数等这是dos下，基于文本模式（非图形模式）的各种显示操作如设置前景色，背景色等。在dos下，没有conio.h，你就只能写那种黑底白字的程序。有了它，你就可以写五颜六色的程序。如TurboC的界面就是蓝底黄字的，还有菜单等 errno.h:errno.h 是C语言C标准函式库里的标头档，定义了通过错误码来回报错误资讯的宏qtts.hmsp_cmn.hmsp_errors.h #ifdef

一般情况下，源程序中所有的行都参加编译。但是有时希望对其中一部分内容只在满足一定条件才进行编译，也就是对一部分内容指定编译的条件，这就是“条件编译”。有时，希望当满足某条件时对一组语句进行编译，而当条件不满足时则编译另一组语句

#ifdef _WIN64 #pragma comment(lib,"../../libs/msc_x64.lib")//x64 #else #pragma comment(lib,"../../libs/msc.lib")//x86 #endif

_WIN64 是什么？在 Win32 配置下，_WIN32 有定义，_WIN64 没有定义。在 x64 配置下，两者都有定义，因此，_WIN32 可以用来判断是否 Windows 系统（对于跨平台程序），而 _WIN64 用来判断编译环境是 x86 还是 x64

常量\定义预定义选项Windows.hVC编译器WIN32Win32√(minwindef.h)×_WIN32××√_WIN64××x64 #pragma comment

#pragma comment(lib,"…/…/libs/msc_x64.lib")

表示链接msc_x64.lib这个库。和在工程设置里写上链入msc_x64.lib的效果一样（两种方式等价，或说一个隐式一个显式调用），不过这种方法写的，程序别人在使用你的代码的时候就不用再设置工程settings了。告诉连接器连接的时候要找msc_x64.lib，这样你就不用在linker的lib设置里指定这个lib了

typedef struct _wave_pcm_hdr typedef struct _wave_pcm_hdr { char riff[4]; // = "RIFF" int size_8; // = FileSize - 8 char wave[4]; // = "WAVE" char fmt[4]; // = "fmt " int fmt_size; // = 下一个结构体的大小 : 16 short int format_tag; // = PCM : 1 short int channels; // = 通道数 : 1 int samples_per_sec; // = 采样率 : 8000 | 6000 | 11025 | 16000 int avg_bytes_per_sec; // = 每秒字节数 : samples_per_sec * bits_per_sample / 8 short int block_align; // = 每采样点字节数 : wBitsPerSample / 8 short int bits_per_sample; // = 量化比特数: 8 | 16 char data[4]; // = "data"; int data_size; // = 纯数据长度 : FileSize - 44 } wave_pcm_hdr;

用结构体定义输出的wav音频格式，这里可以更改为你需要的参数

主函数int main(int argc, char* argv[]) int ret = MSP_SUCCESS; const char* login_params = "appid = , work_dir = .";//登录参数,appid与msc库绑定,请勿随意改动

ret变量用来接收函数的返回值，表示任务的完成状态，接收成功的返回代码或者错误的返回代码 login_params是登录参数，调用科大讯飞的在线语音合成API需要登录

const char* session_begin_params = "voice_name = xiaoyan, text_encoding = gb2312, sample_rate = 16000, speed = 40, volume = 50, pitch = 40, rdn = 2"; const char* filename = "tts_sample.wav"; //合成的语音文件名称 const char* text = ""; //合成文本

session_begin_params用来储存合成参数，包括以下几项

rdn: 合成音频数字发音方式volume: 合成音频的音量pitch: 合成音频的音调speed: 合成音频对应的语速voice_name: 合成发音人sample_rate: 合成音频采样率text_encoding: 合成文本编码格式

可选的发音人有如下几个：在这里插入图片描述

ret = MSPLogin(NULL, NULL, login_params); //第一个参数是用户名，第二个参数是密码，第三个参数是登录参数，用户名和密码可在http://www.xfyun.cn注册获取 if (MSP_SUCCESS != ret) { printf("MSPLogin failed, error code: %d.\n", ret); goto exit ;//登录失败，退出登录 }

MSPLogin函数包含在头文件msp_cmn.h中，使用讯飞分配的登录参数进行登录，并返回代码给ret，若登录失败返回错误代码并退出

printf("\n###########################################################################\n"); printf("## 语音合成（Text To Speech，TTS）技术能够自动将任意文字实时转换为连续的 ##\n"); printf("## 自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的 ##\n"); printf("## 高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。 ##\n"); printf("###########################################################################\n\n");

向屏幕上输出相关信息

ret = text_to_speech(text, filename, session_begin_params); if (MSP_SUCCESS != ret) { printf("text_to_speech failed, error code: %d.\n", ret); } printf("合成完毕\n");

调用语音合成函数，传入的3个参数分别为要合成的文本，合成后wav音频文件的文件名，以及前面提到的合成参数，ret变量接收函数返回值，若失败则打印错误代码并退出

MSPLogout();

退出登录函数，包含在头文件msp_cmn.h中

语音合成函数int text_to_speech(const char* src_text, const char* des_path, const char* params) int ret = -1; FILE* fp = NULL; const char* sessionID = NULL; unsigned int audio_len = 0; wave_pcm_hdr wav_hdr = default_wav_hdr; int synth_status = MSP_TTS_FLAG_STILL_HAVE_DATA;

ret用来接收返回值 FILE fp文件指针用来创建音频文件 …

if (NULL == src_text || NULL == des_path) { printf("params is error!\n"); return ret; } fp = fopen(des_path, "wb"); if (NULL == fp) { printf("open %s error.\n", des_path); return ret; }

若合成文本或者音频文件路径为空，则提示参数错误并退出创建并打开音频文件，若创建失败，则提示打开文件失败

/* 开始合成 */ sessionID = QTTSSessionBegin(params, &ret); if (MSP_SUCCESS != ret) { printf("QTTSSessionBegin failed, error code: %d.\n", ret); fclose(fp); return ret; } ret = QTTSTextPut(sessionID, src_text, (unsigned int)strlen(src_text), NULL); if (MSP_SUCCESS != ret) { printf("QTTSTextPut failed, error code: %d.\n",ret); QTTSSessionEnd(sessionID, "TextPutError"); fclose(fp); return ret; } printf("正在合成 ...\n"); fwrite(&wav_hdr, sizeof(wav_hdr) ,1, fp); //添加wav音频头，使用采样率为16000 while (1) { /* 获取合成音频 */ const void* data = QTTSAudioGet(sessionID, &audio_len, &synth_status, &ret); if (MSP_SUCCESS != ret) break; if (NULL != data) { fwrite(data, audio_len, 1, fp); wav_hdr.data_size += audio_len; //计算data_size大小 } if (MSP_TTS_FLAG_DATA_END == synth_status) break; printf(">"); Sleep(150); //防止频繁占用CPU } printf("\n"); if (MSP_SUCCESS != ret) { printf("QTTSAudioGet failed, error code: %d.\n",ret); QTTSSessionEnd(sessionID, "AudioGetError"); fclose(fp); return ret; } /* 修正wav文件头数据的大小 */ wav_hdr.size_8 += wav_hdr.data_size + (sizeof(wav_hdr) - 8); /* 将修正过的数据写回文件头部,音频文件为wav格式 */ fseek(fp, 4, 0); fwrite(&wav_hdr.size_8,sizeof(wav_hdr.size_8), 1, fp); //写入size_8的值 fseek(fp, 40, 0); //将文件指针偏移到存储data_size值的位置 fwrite(&wav_hdr.data_size,sizeof(wav_hdr.data_size), 1, fp); //写入data_size的值 fclose(fp); fp = NULL; /* 合成完毕 */ ret = QTTSSessionEnd(sessionID, "Normal"); if (MSP_SUCCESS != ret) { printf("QTTSSessionEnd failed, error code: %d.\n",ret); } return ret; }

以上代码为具体的语音合成过程，暂时没有能力看懂qaq

【本文地址】

科大讯飞语音合成(tts)windows sdk代码学习笔记

科大讯飞语音合成(tts)windows sdk代码学习笔记

今日新闻

推荐新闻