科大讯飞语音合成(tts)windows sdk代码学习笔记

您所在的位置:网站首页 离线tts语音引擎语音包讯飞 科大讯飞语音合成(tts)windows sdk代码学习笔记

科大讯飞语音合成(tts)windows sdk代码学习笔记

2024-01-15 11:50| 来源: 网络整理| 查看: 265

#include stdlib.hstdio.hwindows.hconio.h conio是Console Input/Output(控制台输入输出)的简写,其中定义了通过控制台进行数据输入和数据输出的函数,主要是一些用户通过按键盘产生的对应操作,比如getch()函数等这是dos下,基于文本模式(非图形模式)的各种显示操作 如设置前景色,背景色等。在dos下,没有conio.h,你就只能写那种黑底白字的程序。有了它,你就可以写五颜六色的程序。如TurboC的界面就是蓝底黄字的,还有菜单等 errno.h:errno.h 是C语言C标准函式库里的标头档,定义了通过错误码来回报错误资讯的宏qtts.hmsp_cmn.hmsp_errors.h   #ifdef

一般情况下,源程序中所有的行都参加编译。但是有时希望对其中一部分内容只在满足一定条件才进行编译,也就是对一部分内容指定编译的条件,这就是“条件编译”。有时,希望当满足某条件时对一组语句进行编译,而当条件不满足时则编译另一组语句

#ifdef _WIN64 #pragma comment(lib,"../../libs/msc_x64.lib")//x64 #else #pragma comment(lib,"../../libs/msc.lib")//x86 #endif

_WIN64 是什么? 在 Win32 配置下,_WIN32 有定义,_WIN64 没有定义。在 x64 配置下,两者都有定义,因此,_WIN32 可以用来判断是否 Windows 系统(对于跨平台程序),而 _WIN64 用来判断编译环境是 x86 还是 x64

常量\定义预定义选项Windows.hVC编译器WIN32Win32√(minwindef.h)×_WIN32××√_WIN64××x64 #pragma comment

#pragma comment(lib,"…/…/libs/msc_x64.lib")

表示链接msc_x64.lib这个库。和在工程设置里写上链入msc_x64.lib的效果一样(两种方式等价,或说一个隐式一个显式调用),不过这种方法写的,程序别人在使用你的代码的时候就不用再设置工程settings了。告诉连接器连接的时候要找msc_x64.lib,这样你就不用在linker的lib设置里指定这个lib了

typedef struct _wave_pcm_hdr typedef struct _wave_pcm_hdr { char riff[4]; // = "RIFF" int size_8; // = FileSize - 8 char wave[4]; // = "WAVE" char fmt[4]; // = "fmt " int fmt_size; // = 下一个结构体的大小 : 16 short int format_tag; // = PCM : 1 short int channels; // = 通道数 : 1 int samples_per_sec; // = 采样率 : 8000 | 6000 | 11025 | 16000 int avg_bytes_per_sec; // = 每秒字节数 : samples_per_sec * bits_per_sample / 8 short int block_align; // = 每采样点字节数 : wBitsPerSample / 8 short int bits_per_sample; // = 量化比特数: 8 | 16 char data[4]; // = "data"; int data_size; // = 纯数据长度 : FileSize - 44 } wave_pcm_hdr;

用结构体定义输出的wav音频格式,这里可以更改为你需要的参数

主函数int main(int argc, char* argv[]) int ret = MSP_SUCCESS; const char* login_params = "appid = , work_dir = .";//登录参数,appid与msc库绑定,请勿随意改动

ret变量用来接收函数的返回值,表示任务的完成状态,接收成功的返回代码或者错误的返回代码 login_params是登录参数,调用科大讯飞的在线语音合成API需要登录

const char* session_begin_params = "voice_name = xiaoyan, text_encoding = gb2312, sample_rate = 16000, speed = 40, volume = 50, pitch = 40, rdn = 2"; const char* filename = "tts_sample.wav"; //合成的语音文件名称 const char* text = ""; //合成文本

session_begin_params用来储存合成参数,包括以下几项

rdn: 合成音频数字发音方式volume: 合成音频的音量pitch: 合成音频的音调speed: 合成音频对应的语速voice_name: 合成发音人sample_rate: 合成音频采样率text_encoding: 合成文本编码格式

可选的发音人有如下几个: 在这里插入图片描述

ret = MSPLogin(NULL, NULL, login_params); //第一个参数是用户名,第二个参数是密码,第三个参数是登录参数,用户名和密码可在http://www.xfyun.cn注册获取 if (MSP_SUCCESS != ret) { printf("MSPLogin failed, error code: %d.\n", ret); goto exit ;//登录失败,退出登录 }

MSPLogin函数包含在头文件msp_cmn.h中,使用讯飞分配的登录参数进行登录,并返回代码给ret,若登录失败返回错误代码并退出

printf("\n###########################################################################\n"); printf("## 语音合成(Text To Speech,TTS)技术能够自动将任意文字实时转换为连续的 ##\n"); printf("## 自然语音,是一种能够在任何时间、任何地点,向任何人提供语音信息服务的 ##\n"); printf("## 高效便捷手段,非常符合信息时代海量数据、动态更新和个性化查询的需求。 ##\n"); printf("###########################################################################\n\n");

向屏幕上输出相关信息

ret = text_to_speech(text, filename, session_begin_params); if (MSP_SUCCESS != ret) { printf("text_to_speech failed, error code: %d.\n", ret); } printf("合成完毕\n");

调用语音合成函数,传入的3个参数分别为要合成的文本,合成后wav音频文件的文件名,以及前面提到的合成参数,ret变量接收函数返回值,若失败则打印错误代码并退出

MSPLogout();

退出登录函数,包含在头文件msp_cmn.h中

语音合成函数int text_to_speech(const char* src_text, const char* des_path, const char* params) int ret = -1; FILE* fp = NULL; const char* sessionID = NULL; unsigned int audio_len = 0; wave_pcm_hdr wav_hdr = default_wav_hdr; int synth_status = MSP_TTS_FLAG_STILL_HAVE_DATA;

ret用来接收返回值 FILE fp文件指针用来创建音频文件 …

if (NULL == src_text || NULL == des_path) { printf("params is error!\n"); return ret; } fp = fopen(des_path, "wb"); if (NULL == fp) { printf("open %s error.\n", des_path); return ret; }

若合成文本或者音频文件路径为空,则提示参数错误并退出 创建并打开音频文件,若创建失败,则提示打开文件失败

/* 开始合成 */ sessionID = QTTSSessionBegin(params, &ret); if (MSP_SUCCESS != ret) { printf("QTTSSessionBegin failed, error code: %d.\n", ret); fclose(fp); return ret; } ret = QTTSTextPut(sessionID, src_text, (unsigned int)strlen(src_text), NULL); if (MSP_SUCCESS != ret) { printf("QTTSTextPut failed, error code: %d.\n",ret); QTTSSessionEnd(sessionID, "TextPutError"); fclose(fp); return ret; } printf("正在合成 ...\n"); fwrite(&wav_hdr, sizeof(wav_hdr) ,1, fp); //添加wav音频头,使用采样率为16000 while (1) { /* 获取合成音频 */ const void* data = QTTSAudioGet(sessionID, &audio_len, &synth_status, &ret); if (MSP_SUCCESS != ret) break; if (NULL != data) { fwrite(data, audio_len, 1, fp); wav_hdr.data_size += audio_len; //计算data_size大小 } if (MSP_TTS_FLAG_DATA_END == synth_status) break; printf(">"); Sleep(150); //防止频繁占用CPU } printf("\n"); if (MSP_SUCCESS != ret) { printf("QTTSAudioGet failed, error code: %d.\n",ret); QTTSSessionEnd(sessionID, "AudioGetError"); fclose(fp); return ret; } /* 修正wav文件头数据的大小 */ wav_hdr.size_8 += wav_hdr.data_size + (sizeof(wav_hdr) - 8); /* 将修正过的数据写回文件头部,音频文件为wav格式 */ fseek(fp, 4, 0); fwrite(&wav_hdr.size_8,sizeof(wav_hdr.size_8), 1, fp); //写入size_8的值 fseek(fp, 40, 0); //将文件指针偏移到存储data_size值的位置 fwrite(&wav_hdr.data_size,sizeof(wav_hdr.data_size), 1, fp); //写入data_size的值 fclose(fp); fp = NULL; /* 合成完毕 */ ret = QTTSSessionEnd(sessionID, "Normal"); if (MSP_SUCCESS != ret) { printf("QTTSSessionEnd failed, error code: %d.\n",ret); } return ret; }

以上代码为具体的语音合成过程,暂时没有能力看懂qaq



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3