Wink Pings

不用部署Whisper服务 笔记本本地就能跑的实时语音转写方案

很多AI从业者做语音转写的第一选择是部署Whisper服务,不仅要占用服务器资源,还需要传输音频数据存在隐私风险。现在Liquid AI的LFM2-Audio-1.5B可配合llama.cpp在普通笔记本本地实时运行,全程无需联网,数据无外泄风险,附完整操作步骤和拓展用法。

工程师Pau Labarta Bajo最近分享了一个给AI从业者的实用建议:做语音转写,不用非得在服务器上部署Whisper。

Liquid AI推出的LFM2-Audio-1.5B模型,配合llama.cpp推理框架,就能在普通笔记本上实现实时语音转写,全程不需要联网,所有音频和转写结果都只存在本地,不会上传到任何服务器。整个流程的架构如下:

![本地转写架构示意图](https://raw.githubusercontent.com/Liquid4All/cookbook/main/examples/audio-transcription-cli/media/diagram.gif)

### 快速上手步骤

整个方案的配置过程不需要手动编译依赖,官方已经做好了自动化脚本,按照以下四步操作即可:

1. 克隆官方示例仓库

```

git clone https://github.com/Liquid4All/cookbook.git

cd cookbook/examples/audio-transcription-cli

```

2. 安装包管理工具uv(如果系统里已经有可以跳过)

**macOS/Linux:**

```

curl -LsSf https://astral.sh/uv/install.sh | sh

```

**Windows:**

```

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

```

3. 下载测试用音频样本

```

uv run download_audio_samples.py

```

4. 运行转写命令,就能在控制台看到实时转写结果,加上`--play-audio`参数可以同步播放音频

```

uv run transcribe --audio './audio-samples/barackobamafederalplaza.mp3' --play-audio

```

### 支持平台

目前官方编译好的适配包支持四类平台:

- android-arm64

- macos-arm64

- ubuntu-arm64

- ubuntu-x64

其他平台的用户需要等待官方后续更新适配包。

### 拓展用法

这个方案底层用的llama.cpp是用C++编写的开源轻量推理框架,比常用的PyTorch、transformers库运行效率高很多,适合端侧部署。整个CLI会自动下载对应平台的适配版llama.cpp,不需要用户手动处理编译问题。

除了基础的语音转写(ASR),LFM2-Audio-1.5B还支持文本转语音(TTS),甚至可以自定义语音风格,官方给出了三个核心场景的命令行示例:

1. 语音转写

```

# Audio to Speech Recognition (ASR)

./llama-lfm2-audio \

-m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \

--mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \

-mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \

-sys "Perform ASR." \

--audio $INPUT_WAV

```

2. 基础文本转语音

```

# Text To Speech (TTS)

./llama-lfm2-audio \

-m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \

--mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \

-mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \

-sys "Perform TTS." \

-p "My name is Pau Labarta Bajo and I love AI" \

--output $OUTPUT_WAV

```

3. 自定义风格的文本转语音

```

./llama-lfm2-audio \

-m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \

--mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \

-mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \

-sys "Perform TTS.

Use the following voice: A male speaker delivers a very expressive and animated speech, with a low-pitch voice and a slightly close-sounding tone. The recording carries a slight background noise." \

-p "What is your name man?" \

--output $OUTPUT_WAV

```

### 优化方案

目前直接输出的转写文本,因为音频分片重叠的问题,可能会出现断句错误、语法不通的情况。官方给出了本地优化方案:搭配同系列的LFM2-350M小尺寸文本模型做后处理清洗,两步本地 workflow 就能大幅提升转写质量,全程依然不需要联网。

完整的官方文档和最新更新可以查看:[实时音频转写官方文档](https://docs.liquid.ai/examples/laptop-examples/audio-to-text-in-real-time)

发布时间: 2026-05-23 00:01