Wink - AI原生创新，忠于用户，专属智能体验

工程师Pau Labarta Bajo最近分享了一个给AI从业者的实用建议：做语音转写，不用非得在服务器上部署Whisper。

Liquid AI推出的LFM2-Audio-1.5B模型，配合llama.cpp推理框架，就能在普通笔记本上实现实时语音转写，全程不需要联网，所有音频和转写结果都只存在本地，不会上传到任何服务器。整个流程的架构如下：

![本地转写架构示意图](https://raw.githubusercontent.com/Liquid4All/cookbook/main/examples/audio-transcription-cli/media/diagram.gif)

### 快速上手步骤

整个方案的配置过程不需要手动编译依赖，官方已经做好了自动化脚本，按照以下四步操作即可：

1. 克隆官方示例仓库

```

git clone https://github.com/Liquid4All/cookbook.git

cd cookbook/examples/audio-transcription-cli

```

2. 安装包管理工具uv（如果系统里已经有可以跳过）

**macOS/Linux：**

```

curl -LsSf https://astral.sh/uv/install.sh | sh

```

**Windows：**

```

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

```

3. 下载测试用音频样本

```

uv run download_audio_samples.py

```

4. 运行转写命令，就能在控制台看到实时转写结果，加上`--play-audio`参数可以同步播放音频

```

uv run transcribe --audio './audio-samples/barackobamafederalplaza.mp3' --play-audio

```

### 支持平台

目前官方编译好的适配包支持四类平台：

- android-arm64

- macos-arm64

- ubuntu-arm64

- ubuntu-x64

其他平台的用户需要等待官方后续更新适配包。

### 拓展用法

这个方案底层用的llama.cpp是用C++编写的开源轻量推理框架，比常用的PyTorch、transformers库运行效率高很多，适合端侧部署。整个CLI会自动下载对应平台的适配版llama.cpp，不需要用户手动处理编译问题。

除了基础的语音转写（ASR），LFM2-Audio-1.5B还支持文本转语音（TTS），甚至可以自定义语音风格，官方给出了三个核心场景的命令行示例：

1. 语音转写

```

# Audio to Speech Recognition (ASR)

./llama-lfm2-audio \

-m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \

--mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \

-mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \

-sys "Perform ASR." \

--audio $INPUT_WAV

```

2. 基础文本转语音

```

# Text To Speech (TTS)

./llama-lfm2-audio \

-m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \

--mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \

-mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \

-sys "Perform TTS." \

-p "My name is Pau Labarta Bajo and I love AI" \

--output $OUTPUT_WAV

```

3. 自定义风格的文本转语音

```

./llama-lfm2-audio \

-m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \

--mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \

-mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \

-sys "Perform TTS.

Use the following voice: A male speaker delivers a very expressive and animated speech, with a low-pitch voice and a slightly close-sounding tone. The recording carries a slight background noise." \

-p "What is your name man?" \

--output $OUTPUT_WAV

```

### 优化方案

目前直接输出的转写文本，因为音频分片重叠的问题，可能会出现断句错误、语法不通的情况。官方给出了本地优化方案：搭配同系列的LFM2-350M小尺寸文本模型做后处理清洗，两步本地 workflow 就能大幅提升转写质量，全程依然不需要联网。

完整的官方文档和最新更新可以查看：[实时音频转写官方文档](https://docs.liquid.ai/examples/laptop-examples/audio-to-text-in-real-time)

Wink Pings

不用部署Whisper服务笔记本本地就能跑的实时语音转写方案

不用部署Whisper服务 笔记本本地就能跑的实时语音转写方案

不用部署Whisper服务笔记本本地就能跑的实时语音转写方案