树莓派之会说话的机器人

quasiceo 2015-09-25

展开全文

树莓派之会说话的机器人-科大讯飞语音SDK

2014-3-24 13:42| 发布者: TaterLi| 查看: 7031| 评论: 20|原作者: codelive

摘要: 本人一直想做一种可以和人对话的智能机器人，这样小孩子一定会非常的喜欢，树莓派的小巧和可任意扩展的Linux系统可以满足这种需求。首先是让梅莓派说话，也就是把一段文本转换成语音，然后再进行播放。方案有很多， ...

本人一直想做一种可以和人对话的智能机器人，这样小孩子一定会非常的喜欢，树莓派的小巧和可任意扩展的Linux系统可以满足这种需求。
首先是让梅莓派说话，也就是把一段文本转换成语音，然后再进行播放。方案有很多，也有很多的开源软件，考虑到之后还要做语音识别方面的功能，最终选择科大讯飞的语音SDK,虽然官方未公开提供树莓派版本的SDK,但通过咨询公司开发人员了，他们内部已经有了一个基于树莓派的Beta版本，然后就发给了我，顺便我也可以帮助进行测试，这里再次对科大讯飞表示感谢。

讯飞官方提供了一个基本的测试代码，我在基础上做了一些修改，功能是：输入一段文本，指定发音人（普通话，粤语，儿童。。。），保存为.wav文件
程序命令行是: ./tts [text] [wave filename] [voice name]
示例： ./tts 你好 hello.wav xiaoyu
好了，上代码:

[C] 纯文本查看 复制代码

// ttsdemo.cpp : Defines the entry point for the console application.

//

#include 

#include 

#include 

#include 



#include "qtts.h"



#define TRUE 1

#define FALSE 0



typedef int SR_DWORD;

typedef short int SR_WORD ;



//音频头部格式

struct wave_pcm_hdr

{

        char            riff[4];                        // = "RIFF"

        SR_DWORD        size_8;                         // = FileSize - 8

        char            wave[4];                        // = "WAVE"

        char            fmt[4];                         // = "fmt "

        SR_DWORD        dwFmtSize;                      // = 下一个结构体的大小 : 16



        SR_WORD         format_tag;              // = PCM : 1

        SR_WORD         channels;                       // = 通道数 : 1

        SR_DWORD        samples_per_sec;        // = 采样率 : 8000 | 6000 | 11025 | 16000

        SR_DWORD        avg_bytes_per_sec;      // = 每秒字节数 : dwSamplesPerSec * wBitsPerSample / 8

        SR_WORD         block_align;            // = 每采样点字节数 : wBitsPerSample / 8

        SR_WORD         bits_per_sample;          // = 量化比特数: 8 | 16



        char            data[4];                        // = "data";

        SR_DWORD        data_size;                // = 纯数据长度 : FileSize - 44 

} ;



//默认音频头部数据

struct wave_pcm_hdr default_pcmwavhdr = 

{

        { 'R', 'I', 'F', 'F' },

        0,

        {'W', 'A', 'V', 'E'},

        {'f', 'm', 't', ' '},

        16,

        1,

        1,

        16000,

        32000,

        2,

        16,

        {'d', 'a', 't', 'a'},

        0  

};



int text_to_speech(const char* src_text ,const char* des_path ,const char* params)

{

        struct wave_pcm_hdr pcmwavhdr = default_pcmwavhdr;

        const char* sess_id = NULL;

        int ret = 0;

        unsigned int text_len = 0;

        char* audio_data;

        unsigned int audio_len = 0;

        int synth_status = MSP_TTS_FLAG_STILL_HAVE_DATA;

        FILE* fp = NULL;



//        printf("begin to synth...\n");

        if (NULL == src_text || NULL == des_path)

        {

//                printf("params is null!\n");

                return -1;

        }

        text_len = (unsigned int)strlen(src_text);

        fp = fopen(des_path,"wb");

        if (NULL == fp)

        {

//                printf("open file %s error\n",des_path);

                return -1;

        }

        sess_id = QTTSSessionBegin(params, &ret);

        if ( ret != MSP_SUCCESS )

        {

//                printf("QTTSSessionBegin: qtts begin session failed Error code %d.\n",ret);

                return ret;

        }



        ret = QTTSTextPut(sess_id, src_text, text_len, NULL );

        if ( ret != MSP_SUCCESS )

        {

//                printf("QTTSTextPut: qtts put text failed Error code %d.\n",ret);

                QTTSSessionEnd(sess_id, "TextPutError");

                return ret;

        }



        fwrite(&pcmwavhdr, 1, sizeof(pcmwavhdr), fp);



        while ( true )

        {

                audio_data = (char*)QTTSAudioGet( sess_id ,&audio_len , &synth_status , &ret );

                if ( ret != MSP_SUCCESS )

                {

//                        printf("QTTSAudioGet: qtts get audio failed Error code %d.\n",ret);

                        break;

                }

                fwrite(audio_data, 1, audio_len, fp);

                pcmwavhdr.data_size += audio_len;//修正pcm数据的大小

                if ( MSP_TTS_FLAG_DATA_END == synth_status )

                {

//                        printf("QTTSAudioGet: get end of data.\n");

                        break;

                }

        }

        //修正pcm文件头数据的大小

        pcmwavhdr.size_8 += pcmwavhdr.data_size + 36;



        //将修正过的数据写回文件头部

        fseek(fp, 4, 0);

        fwrite(&pcmwavhdr.size_8,sizeof(pcmwavhdr.size_8), 1, fp);

        fseek(fp, 40, 0);

        fwrite(&pcmwavhdr.data_size,sizeof(pcmwavhdr.data_size), 1, fp);



        fclose(fp);



        ret = QTTSSessionEnd(sess_id, "Normal");

        if ( ret != MSP_SUCCESS )

        {

//                printf("QTTSSessionEnd: qtts end failed Error code %d.\n",ret);

        }

        return ret;

}



int main(int argc, char* argv[])

{

        ///APPID请勿随意改动

        const char* m_configs    = "appid=xxxxxx"; // 你的appid

        const char* text         = "你好";

        const char* filename     = "tts.wav";

        const char* voice_name   = "xiaoyan";

        const char* param_format = "ssm=1,auf=audio/L16;rate=16000,vcn=%s,tte=UTF8";

        char param[128];

        int ret = 0;



        if((argc == 2) && ((strcmp(argv[1], "--help") == 0) || (strcmp(argv[1], "-h") == 0)))

        {

                printf("USAGE:   ./tts [text你好)] [wave filenametts.wav)] [voice namexiaoyan)] \n");

                printf("Example: ./tts 你好 hello.wav xiaoyu\n");

                printf("\n");

                return 1;

        }

        if(argc >= 2)

        {

                text = argv[1];

        }

        if(argc >= 3)

        {

                filename = argv[2];

        }

        if(argc >= 4)

        {

                voice_name = argv[3];

        }

        memset(param, 0, sizeof(param));

        sprintf(param, param_format, voice_name);

        //引擎初始化

        ret = QTTSInit(m_configs);

        if ( ret != MSP_SUCCESS )

        {

//                printf("QTTSInit: failed, Error code %d.\n", ret);

                return ret;

        }

        //合成文本

        ret = text_to_speech(text, filename, param);

        if ( ret != MSP_SUCCESS )

        {

                printf("tts : failed.\n");

        }

        else

        {

                printf("tts : ok.\n");

        }

        //引擎关闭

        QTTSFini();

        return ret;

}

编译命令行：

[Bash shell] 纯文本查看 复制代码

g++ -D_DEBUG -D_GNU_SOURCE -w -pthread -pipe -ldl -lrt -Iinclude -fPIC -o tts tts.cpp msc.a

这里要先说明一下，讯飞SDK要先从官方获得，并且申请你的appid.

将文本转换成语音的程序就完成了，下面就是如何让树莓派播放这个.wav文件。
大家都知道树莓派声音有两种输出模式： HDMI和Analog模拟，因为我接了一个小音箱给树莓派，所以要选择Analog输出，这里就需要做一些配置:安装声卡服务:

[Bash shell] 纯文本查看 复制代码

sudo apt-get install alsa-utils

加载驱动:

[Bash shell] 纯文本查看 复制代码

sudo modprobe snd_bcm2835

设置Analog输出模式:

[Bash shell] 纯文本查看 复制代码

sudo amixer cset numid=3 1

插上小音箱，然后进行测试（aplay是音频播放的程序，如果缺省没有就使用apt-get instal安装吧）:

[Bash shell] 纯文本查看 复制代码

sudo aplay test.wav

正常情况下音箱发出声音了。

最后把两个命令连接在一起，接收一段文本然后立马播放(主要是通过外部的程序发送命令，比如HTTP GET/POST, SSH, ...)：

[Bash shell] 纯文本查看 复制代码

sudo ./tts  "说话的文本" tmp.wav vinn && aplay tmp.wav

本文完，欢迎讨论。

tts.zip

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： quasiceo > 《待分类1》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

quasiceo

关注对话

TA的最新馆藏

[转] 要改变的不是目的地，而是行动路线
[转] 给自己留下8%的“失败空间”
[转] 自我认知的3个核心问题（4000字长文）
[转] 【荐】安东尼罗宾的故事及经典语录
[转] Delphi执行CMD命令
[转] 携手Delphi，保护我们的.NET程序

喜欢该文的人也喜欢更多

热门阅读换一换