AI开放平台 |
您所在的位置:网站首页 › 百度ai开放平台图片格式 › AI开放平台 |
7月4号,百度2018 AI开发者大会如期举行,这是百度举办的第二届人工智能大会。本次大会有诸多亮点,比如百度研制的无人驾驶汽车APOLLO正式量产并出口到日本、百度自己研发的AI芯片“昆仑”正式亮相,并借此成为拥有从芯片到人工智能、软件平台、人工智能解决方案三位一体的国内AI巨头。 作为国内最大的搜索引擎,百度在搜索技术和海量数据方面有绝对的垄断地位,这为百度在国内人工智能领域独占先机创造了优势。 这次大会,百度提出一个口号:Everyone can AI。百度提出这样口号是有底气的,因为百度利用自身的技术优势完成了一个AI基础架构平台,并开放出来供开发者使用,这个平台就是百度AI开放平台。利用这个开放平台,我们能轻松地使用百度人工智能的基础架构资源,通过调用其相关API,使我们的应用程序获得AI功能。 初识百度AI开放平台 打开百度AI开放平台(https://ai.baidu.com)的产品服务清单,我们可以看到百度AI开放平台提供如下类型的服务: l 语音技术 l 图像技术 l 人脸与人体识别 l 视频技术 l AR与VR l 自然语言处理 l 数据智能 l 知识图谱 每种类型的服务又包含若干类型的子项API服务,比如对于上面的语音技术,它就包含了下面几种API服务: l 语音识别 l 语音合成 l 语音唤醒 l 智能呼叫中心 这些API是基于HTTPS的,通过提供RESTful风格的API为开发者提供服务,比如,语音合成API服务可以将文本转化成可以播放的音频文件。 一般而言,使用百度AI服务的步骤为: 1) 注册成为百度AI开放平台开发者; 2) 在百度API开放平台上创建相关类型的的AI应用,获得AppID、API Key和Secret Key; 3) 调用相关类型的API,获得AI功能的结果,为开发者的应用服务。 利用百度语音API实现一个简单的诗歌朗诵应用 这里我们将介绍如何使用百度的语音合成API来写一个简单的应用:把一个包含有《面朝大海,春暖花开》诗歌的文本文档传化成为音频文件,然后听听机器如何朗诵这首诗歌。 具体步骤如下: 1. 注册百度AI开发者账号 要使用百度的这些AI服务,你必须要首先要在百度AI开放平台上注册成为开发者。百度AI开发者账号分为个人账号和企业账号,无论哪种开发者账号,都需要实名认证。这里我们注册的是个人开发者,注册完后需要进行实名认证。这里的实名认证不但包括姓名、身份证等个人实名信息,还包括个人真实照片等信息。为了方便开发者实名信息认证,百度云移动app集成了百度自家的某些人脸AI服务,提供了刷脸认证,用户可以下载该app完成实名认证。 当你完成了实名认证后,打开百度AI开放平台的控制台页面,我们可以看到会自动开通如下的AI服务: 2. 创建语音合成AI引用 选择上面百度语音类别,然后创建一个语音应用: 默认情况下,一个语音AI应用同时包含语音识别和语音合成的接口。语音AI应用创建好,会自动分配AppID,App Key和Secret Key,如果开发者要使用百度语音的API服务,这些信息是必要的。如果你熟悉OAuth 2.0 方式的API的调用流程,你会感觉上面的相关术语很熟悉,事实上百度AI应用的API都是采用OAuth 2.0方式的,只不过百度的相关SDK API将这套流程封装得很好,我们使用时可以无需直接处理。 除此之外,打开应用详情,可以看到百度为AI应用分配的默认资源,如QPS,对于本例子中的语音合成API,默认QPS是100,如果开发者认为这些资源还不够,还可以申请更多的服务资源。 3. 安装AI应用SDK,并调用API完成服务 1) 安装SDK 百度语音服务提供了多种编程语言相关的SDK,这里选择Python版本的。打开百度AI开放平台语音服务SDK下载页面(https://ai.baidu.com/sdk#asr),选择Python SDK。 笔者采用Python官方推荐的主流版本Python 3,本例具体版本是Python 3.6.4。 解压下载的zip SDK文件后,进入加压后的目录: python setup.py install 2) 准备文本材料 准备好诗歌《面朝大海,春暖花开》的文本文件flower.txt,注意标点符号,保存为UTF-8格式的。 3) 使用百度语音合成API 利用上面创建的语音应用的AppID, App Key和Secret Key: from aip import AipSpeech """ 你的 APPID AK SK """ APP_ID = '你的 App ID' API_KEY = '你的 Api Key' SECRET_KEY = '你的 Secret Key' client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) 调用百度语音合成API: result = client.synthesis(open('blossoms.txt', encoding='utf8').read(), 'zh', 1, { 'per': 0, 'vol': 3, 'pit': 7 }) # 识别正确返回语音二进制 错误则返回dict 参照下面错误码 if not isinstance(result, dict): with open('poem.mp3', 'wb') as f: f.write(result) else: print(result) 代码解释如下: 读取文本文件,获得文本数据,然后作为参数传入client.synthesis() API,当请求成功后就返回一个音频格式的数据内容并写入文件,失败则打印出错误信息。 用户还可以根据自己的相关需要选择合成语音时的语速,语调,音量和发声人选择,具体参数细节可以参考API文档(https://ai.baidu.com/docs#/TTS-API/top) 执行上面的代码,可以发现一个名为poem.mp3的音频文件产生了,用Windows自带的Windows Media Player播放可以听到合成的语音朗诵这首诗。 我们可以发现,机器朗诵的诗歌和人朗诵的相比还是有很大差距,或者我们可以说机器诗歌朗诵是缺乏灵魂的,这是目前AI技术的局限,也是需要努力的方向。随着百度AI语音的进化,特别是丰富语料之后,我相信相关语音合成效果会越来越好。 与此同时,通过上面的演示,我们可以看到,开发者十分钟就可以完成一些简单的文本与语音的转换。这大大降低了开发者使用AI的难度。如果没有这些服务,用户要么自己去实现一套自己的语音合成机器模型和语料库,或者借助第三方TTS SDK,这样的开发难度都大很多。 把上面的代码稍作修改,在文本文件中输入一些大众不会念的生僻字,即可实现一个生僻字的念法应用。 除此在外,百度AI开放平台还提供其他更多更实用的AI服务,读者可以自行探索,基本开发流程跟本文类似。 后记: 百度作为一家国内顶尖的互联网和AI公司,其技术实力毋庸置疑,但是百度是一家颇具争议的公司。在上面的百度AI开放平台的控制台中,我们看到百度提供一些人脸识别、内容审查等敏感而又有争议性的AI服务,这些AI服务在公众生活中涉及到个人隐私,公众舆论的热点事件中应该发挥什么样的作用,值得我们深思。 关注51Testing软件测试网,提升it技能,从不会到熟练只差一步。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |