复刻小智AI，ESP32-S3搭建Arduino+ESP-SR+ESP-TTS开发环境踩坑记录

作者: Xu Jiwei 日期: 4月 7, 2025 发表评论 (19) 查看评论

文章目录

最近 B 站上赛博小狗和小智 AI 都很火，我也想复刻一个，最好能把两者结合一下，研究了一下，发现作者们的开源方案有些地方不太符合我的习惯，准备改造一番，然后就走上了踩坑之旅。

缘由

赛博小狗这个开源项目，作者使用了现成的语音识别模块和文本转语音模块，这两个模拟贵且不说，在使用上也不太灵活，而且主控也是使用的 STM32，这个如果要想改造结合小智 AI，开发起来也比较麻烦。

然后就想到了乐鑫 ESP32 是已经自带了语音唤醒、语音识别、文本转语音能力的，那干嘛不直接用一个 MCU 来实现外部模块的功能，成本就要低上很多了，而且小智 AI 本身也是基于 ESP32 去做的，结合起来就更方便了。

再研究了一下小智 AI 的开源硬件端项目，发现是基于 ESP-IDF 开发的，这就叫人头大了，虽然原厂的 ESP-IDF 相比 Arduino 框架更强大，配置更灵活，但是从开发便捷性上来说，我还是更喜欢使用 Arduino 框架。

为了把这一堆东西都改成自己喜欢的样子，就开始了踩坑之旅。

开发环境

虽然在玩 ESP32 时一直用的 Arduino 框架，但是我并没有使用 Arduino IDE，而是使用的 Visual Studio Code + PlatformIO 插件。Ardunio IDE 的编辑器太古老了，缺少很多有用的功能，像代码提示、自动补全、符号跳转等功能都是缺失的。

而 Visual Studio Code 在这方面就强大很多了，而且得益于最近 AI 的流行，可以通过 Codium 或者 Cursor 等 AI 编程工具实现更高效的编码。另外 PlatformIO 还支持多个 MCU 平台的 SDK 管理和编译，可以实现一个 App 完成多种 MCU 固件的开发工作。

这次搭建 ESP32 + ESP-SR + ESP-TTS 开发环境也是基于 VSCode + PlatformIO 来完成的，也推荐电子 DIY 和 Arduino 爱好者尝试一下这套开发环境。

ESP-SR 库找不到？

第一步先尝试一下官方语音识别 ESP-SR 中的示例，找到 arduino-esp32 仓库中 ESP_SR 的示例，原样复制代码过来，一编译，直接找不到头文件 ESP_I2S.h 和 ESP_SR.h。

然后在 platformio 的 framework-arduinoespressif32 的目录里看了下，还真没有……

费了半天劲搜索了一下，才发现 PlatformIO 使用的 arduino-esp32 仓库，是另外一个项目中打包的，在打包的时候，删除了 ESP-SR 相关的库。

又花了点时间，找到一个 pioarduino/platform-espressif32 仓库，这个仓库会紧跟官方上游仓库来生成使用最新 ESP-IDF 打包的 Arduino 框架，只需要在 platformio.ini 中将 platform 字段指定他们的仓库就可以了。

保存之后，等待 PlatformIO 下载依赖，编码终于可以编译通过了。

I2S 初始化失败？

拿上最新的编译、烧录，打开串口监视器，咋一直重启呢，暂停一下日志，发现了都挂在了下面这个错误：

看着似乎是因为我用了 ESP32-S3-N16R8 带 PSRAM 的版本，导致在初始化 I2S 的时候，中断函数放在了 PSRAM 里面，而不是 SRAM 里。

但是我这测试代码也没改啥，按理分配到 PSRAM 需要额外指定的，示例代码里并没有这么做。

继续费劲地找，还真找到了在踩坑时几天前有人提的 issue I2S failed to set up tx callback，原来是一个官方 SDK 打包时参数错误的问题，好嘛……

评论里提到了会在 3.2.0-RC2 中修复，那就等等修复后的 arduino-esp32 吧。

幸好是用了 16M Flash，分区才够用

等过了一周，终于有新版本的 arduino-esp32 可以用了，固件也可以正常在 ESP32 上跑起来了，但是运行的时候还是会出现错误说没有找到唤醒词。

搜了下，原来模型是得单独上传的，需要在 Flash 上单独创建一个分区，在某个教程中建议可以使用 esp_sr_16.csv 这个预置的分区配置。

# Name,   Type, SubType, Offset,  Size, Flags
nvs,      data, nvs,       0x9000,   0x5000,
otadata,  data, ota,       0xe000,   0x2000,
app0,     app,  ota_0,    0x10000, 0x300000,
app1,     app,  ota_1,   0x310000, 0x300000,
spiffs,   data, spiffs,  0x610000, 0x700000,
model,    data, spiffs,  0xD10000, 0x2E0000,
coredump, data, coredump,0xFF0000,  0x10000,

这个分区配置中创建了一个标签为 model，大小为 2944KB 的分区，用于存放 ESP-SR 需要的模型，包括语音唤醒和命令识别两种用途的模型。

在使用了这个分区表之后，下一步配置唤醒模型是可以了，但是更后面的 TTS 模型又需要额外分区，而且这里的分区大小也不太够用，因此最终还是改了一下分区表，使用自定义配置。

# Name,   Type, SubType, Offset,  Size, Flags
nvs,      data, nvs,       0x9000,   0x5000,
otadata,  data, ota,       0xe000,   0x2000,
app0,     app,  ota_0,    0x10000, 0x300000,
app1,     app,  ota_1,   0x310000, 0x300000,
spiffs,   data, spiffs,  0x610000, 0x100000,
model,    data, spiffs,  0x710000, 0x5E0000,
voice_data,data,fat,     0xCF0000, 0x300000,
coredump, data, coredump,0xFF0000,  0x10000,

额外的两个分区配置：

model：用于存放语音唤醒模型，大小 6016KB
voice_data：用于存放 TTS 模型，大小 3072KB

为了使用 MultiNet6，直接支持用拼音配置中文指令，所以这里把 model 分区大小调整到了 6MB 多，要不然就放不下 WakeNet 和 MultiNet 模型了。

唤醒模型该怎么配置啊？

很好，终于可以跑起来了，一运行，继续提示缺少提示词，明白，上面创建了分区，但是还没有上传模型数据。

在 esp-sr 项目中找到 WakeNet 和 MultiNet 的模型数据，在项目主页也可以看到目前已经有的唤醒词。

我在这里选择了 小鸭小鸭 作为唤醒词。

另外还需要 MultiNet 的指令识别模型，为了使用中文，我选择了 mn6_cn 这个，同样可以在 esp-sr 项目中的 model 目录中找到。

然后把它们放在一个目录中，通过自带的 Python 脚本来生成目标分区数据：

python3 pack_model.py -m mytarget -o srmodels.bin

再使用 esp-tool 上传到 model 分区中：

esptool.py --baud 2000000 --before default_reset --after hard_reset write_flash 0x710000 data/srmodels.bin

完成，终于可以用“小鸭小鸭”来唤醒 ESP32，并且使用“打开空调”来操作了。

TTS 也要上传模型哦

弄完 ESP-SR 的语音唤醒和命令识别，继续折腾 TTS。

根据 esp-skainet 中的示例，使用 TTS 也很简单，参考 https://github.com/espressif/esp-skainet/blob/master/examples/chinese_tts/main/main.c 示例中的代码就可以了。

不过在这里不得不吐槽一下，官方这些示例、文档、模型文件都是东一块西一块的……

TTS 的模型又在 esp-sr 项目中，在 esp-tts/esp_tts_chinese/esp_tts_voice_data_xiaole.dat 目录中。

几种音色的区别可以在 samples 中找到示例试听一下。

我这里使用了 xiaoxin_small 这个，使用以下命令刷入 ESP32 的 Flash：

esptool.py --baud 2000000 --before default_reset --after hard_reset write_flash 0xCF0000 ./data/esp_tts_voice_data_xiaoxin_small.dat

再使用官方示例代码测试就可以了。

这语音咋声音不对呢

我搭建测试环境的硬件，是使用的 MAX98357 I2S 音频放大器模块，在参照官方示例代码初始化 I2S 并播放 TTS 音频时，总是单调不太对，调整了采样率和位宽都对不上，最终发现 ESP-TTS 输出的数据是单声道的，将输出模式从立体声修改为单声道就没问题了。

这里用了 ESP_I2S 库，在 begin 时将第 4 个参数从 I2S_SLOT_MODE_STEREO 改为 I2S_SLOT_MODE_MONO 就可以正常工作了。

好了终于跑通了

断断续续几个星期，终于把 ESP32-S3 在 Arduino 开发框架下运行 ESP-SR 语音识别、语音指令、文本转语音这些功能搞定了，再有点时间就可以继续折腾那个赛博小狗和小智 AI 了 😂。

希望此文对想用 Arduino 框架开发 ESP-SR 和 ESP-TTS 的朋友们有所帮助。

参考资料

ElectronicsAI, Arduino, ESP-SR, ESP-TTS, ESP32, 小智AI

← 开源了，智能UV胶紫外线固化灯复刻教程

复刻小智AI第2步，2张核心流程图学习一下它的WebSocket协议 →

发表评论？

19 条评论。

读者 4月 25, 2025 在 6:24 下午

博主我在修改 platform = https://github.com/pioarduino/platform-espressif32/releases/download/stable/platform-espressif32.zip 时候下载失败已经挂梯子，应该怎么解决

回复
- Xu Jiwei 4月 25, 2025 在 8:38 下午
  
  可以试试增强模式。
  
  回复
ikun 4月 29, 2025 在 12:14 上午

作者，你好，我在尝试几天时间后一直出现AFE_SR: ERROR: Please select wake words!错误，调整后的模型，我已经写入了对应分区，但是这个错误一直存在,如果可以的话作者你能分享这一部分ESP-SR调试的DEMO代码吗，感谢 :cry:

回复
- Xu Jiwei 4月 29, 2025 在 9:33 下午
  
  代码库中默认是用的 hi esp 唤醒词，需要手动把 ESP_SR.cpp 代码拷出来，改一下查找唤醒词的代码。
  
  回复
  - ikun 5月 3, 2025 在 12:40 上午
    
    您好，再次打扰一下，我修改了esp32-hal-sr.c文件中的（我使用小爱同学）
    afe_config.wakenet_model_name = esp_srmodel_filter(models, ESP_WN_PREFIX, “xiaoaitongxue”);
    并且尝试过
    afe_config.wakenet_model_name = (char*)”wn9_xiaoaitongxue”;
    等方式均跑不了，不改这一部分就显示AFE_SR: ERROR: Please select wake words!，改了程序就直接到sr就报错，如果您愿意，可有偿提供这一部分的代码吗？
    
    回复
    - Xu Jiwei 5月 3, 2025 在 9:53 上午
      
      可以看一下报的错是什么，我只修改了这一个地方，还报错的话，可能是模型上传有问题
      
      回复
  - ikun 5月 3, 2025 在 9:16 下午
    
    解决了，感谢博主，后续这段代码我会开源出来或者写一个小工具，感谢
    
    回复
    - Xu Jiwei 5月 3, 2025 在 9:22 下午
      
      赞，期待一下。
      
      回复
    - ikun 5月 4, 2025 在 12:01 上午
      
      唤醒词小工具：https://github.com/KiWi233333/esp-sr-model-tool
      
      只是简化一些写入操作，仓库内包括修改后的模型名称的源代码（arduino-esp32 仓库），希望能帮到其他小伙伴，也再次感谢博主
      
      回复
began 9月 21, 2025 在 9:27 上午

博主你好，请问这个项目方便开源吗？最近也在尝试迁移，想学习下

回复
- Xu Jiwei 9月 21, 2025 在 9:28 上午
  
  这个还没有做完呢，只是做了一下前期技术预研，文章已经分享了主要涉及的功能需求，应该是可以跑通的。
  
  回复
lixy 1月 19, 2026 在 4:51 下午

https://docs.freenove.com/projects/fnk0102/en/latest/fnk0102/codes/Main/11_ESP32_SR.html#project-11-1-esp32-sr

https://www.waveshare.net/wiki/ESP32-S3-Touch-LCD-1.85#.E5.88.87.E6.8D.A2.E4.B8.BA.E4.B8.AD.2F.E8.8B.B1.E6.96.87.E8.AF.86.E5.88.AB.E6.A8.A1.E5.9E.8B

以上两处是调试ESP-SR的补充信息，我的开发板最终没能调试成功，唤醒不了.

回复
- iyutong 3月 3, 2026 在 4:59 下午
  
  我也唤醒不了
  
  回复
iyutong 2月 12, 2026 在 10:23 下午

有没有完整的代码事例，项目事例

回复
- Xu Jiwei 2月 12, 2026 在 10:28 下午
  
  还没有弄完 🙈
  
  回复
  - iyutong 3月 2, 2026 在 11:30 下午
    
    没事的，半成品也行，主要是想看sr的调用事例，以及tts的使用，arduino官方案例貌似只有sr没有tts
    
    回复
威 2月 27, 2026 在 4:24 下午

#include “esp_board_init.h”
#include “ringbuf.h”
#include “wav_encoder.h”
这3个找不到。有没有简单的不依赖开发板的代码。我就播放一下就可以了。

回复
康 5月 17, 2026 在 10:53 下午

佬，可以看下代码吗，我tts一直没有声

回复
- Xu Jiwei 5月 17, 2026 在 10:57 下午
  
  可以看下日志，这个理论上没啥问题，可以先搞段 WAV 直接播放测试 I2S 链路是不是正常的。
  
  回复

Architecting Life

Just do it