第三篇【传奇开心果系列】Python的文本和语音相互转换库技术点案例示例：pyttsx3实现语音助手经典案例

admin • 2024-03-02 19:43 • 未分类

传奇开心果短博文系列

系列短博文目录
- Python的文本和语音相互转换库技术点案例示例系列
短博文目录
- 一、项目背景和目标
- 二、雏形示例代码
- 三、扩展思路介绍
- 四、与其他库和API集成示例代码
- 五、自定义语音示例代码
- 六、多语言支持示例代码
- 七、语音控制应用程序示例代码
- 八、文本转语音通知示例代码
- 九、语音交互界面示例代码
- 十、实现更复杂交互界面示例代码
- 十一、归纳总结

系列短博文目录

Python的文本和语音相互转换库技术点案例示例系列

短博文目录

一、项目背景和目标

当今社会人工智能机器学习在我国方兴未艾，语音助手无处不在大显神威。大到歼20战斗机语音辅助操控，中到家用小汽车语音辅助操控，小到智能家居语音操控、小爱同学操控音响设备等，可以说语音助手已经深入工作、生活和社会的各个方面。

pyttsx是一个Python库，用于实现文本到语音的转换。它提供了一个使用简单的API，可以很方便地让你的Python程序实现生成语音输出的语音助手。

二、雏形示例代码

下面是一个简单的语音助手示例代码：

安装 pyttsx 库：
```
pip install pyttsx
```
导入 pyttsx：
```
import pyttsx
```
创建 pyttsx 的引擎对象：
```
engine = pyttsx.init()
```

设置语音助手的属性（可选）：

engine.setProperty('rate', 150)  # 设置语速（默认为200）
engine.setProperty('volume', 0.8)  # 设置音量（范围为0.0到1.0）

将文本转换为语音并播放：
```
engine.say("你好，我是语音助手")
engine.runAndWait()
```
这段代码会将文本 “你好，我是语音助手” 转换为语音并播放出来。
如果你想将文本保存为音频文件，可以使用 save_to_file 方法：
```
engine.save_to_file("你好，我是语音助手", "output.mp3")
engine.runAndWait()
```
这段代码会将文本 “你好，我是语音助手” 转换为语音，并保存为名为 “output.mp3” 的音频文件。

这只是一个简单的示例，pyttsx 还提供了其他功能，如设置语言、获取可用的语音引擎等。你可以查看 pyttsx 的官方文档以获取更多详细信息和示例代码：https://pyttsx.readthedocs.io/

三、扩展思路介绍

当你熟悉了基本的 pyttsx 库的用法后，你可以进一步扩展你的语音助手的功能。以下是一些扩展思路：

与其他库和API集成：将 pyttsx 与其他库和API结合使用，以增强语音助手的功能。例如，你可以使用 speech_recognition 库来实现语音识别，将用户的语音输入转换为文本，并使用 pyttsx 将回应转换为语音输出。
自定义语音：使用 pyttsx 的 setProperty 方法来调整语音助手的属性，例如语速、音量和音调，以使语音更加自然和适合用户的喜好。
多语言支持：pyttsx 支持多种语言和语音引擎。你可以通过设置 pyttsx 的 setProperty 方法来切换语言，从而实现多语言支持的语音助手。
语音控制应用程序：结合其他库和框架，你可以创建一个可以通过语音控制的应用程序。例如，你可以使用 pyttsx 和 pyautogui 库来实现语音控制鼠标和键盘，从而实现语音导航和操作。
文本转语音通知：使用 pyttsx 将文本转换为语音，以实现通知功能。你可以将系统的提醒、日程安排、新闻等文本内容转换为语音，并通过语音播放给用户。
语音交互界面：创建一个交互式的语音界面，让用户可以通过语音与你的应用程序进行交互。你可以使用 pyttsx 结合其他库和框架，例如 pyaudio 和 speech_recognition，来实现语音输入和输出的交互式界面。

这些是一些扩展思路，你可以根据你的需求和兴趣进一步探索和扩展你的语音助手的功能。记得查阅相关文档和示例代码，以更好地理解和使用相关库和API。

四、与其他库和API集成示例代码

当将 pyttsx 与 speech_recognition 库结合使用时，你可以实现一个能够接收语音输入并以语音回应的语音助手。以下是一个示例代码：

import speech_recognition as sr
import pyttsx3

# 创建语音识别器对象
recognizer = sr.Recognizer()

# 创建语音合成引擎对象
engine = pyttsx3.init()

# 定义语音助手的回应函数
def respond(text):
    print("助手：", text)
    engine.say(text)
    engine.runAndWait()

# 语音助手的主循环
while True:
    try:
        # 使用麦克风录音
        with sr.Microphone() as source:
            print("请说话：")
            audio = recognizer.listen(source)

        # 识别语音输入
        text = recognizer.recognize_google(audio, language="zh-CN")
        print("用户：", text)

        # 根据用户输入作出回应
        if "你好" in text:
            respond("你好！我是语音助手。")
        elif "再见" in text:
            respond("再见！祝你有美好的一天！")
            break
        else:
            respond("抱歉，我不理解你的意思。")

    except sr.UnknownValueError:
        print("抱歉，无法识别你的语音。")
    except sr.RequestError:
        print("抱歉，无法连接到语音识别服务。")

这段代码使用 speech_recognition 库来监听麦克风输入，并使用 Google 语音识别服务将语音转换为文本。然后，根据用户的输入作出相应的回应，使用 pyttsx 将回应转换为语音输出。

在这个示例中，语音助手会回应"你好！我是语音助手。"当用户说"你好"时，回应"再见！祝你有美好的一天！“当用户说"再见"时，然后退出程序。对于其他用户输入，语音助手会回应"抱歉，我不理解你的意思。”

请确保已安装 speech_recognition 和 pyttsx3 库，并根据需要调整语音助手的回应逻辑。你还可以根据需要添加其他功能，例如语音控制、多语言支持等。

五、自定义语音示例代码

当使用 pyttsx3 的 setProperty 方法来自定义语音属性时，你可以调整语音助手的语速、音量和音调等属性，以使语音更加自然和符合用户的喜好。以下是一个示例代码：

import pyttsx3

# 创建语音合成引擎对象
engine = pyttsx3.init()

# 获取当前语音属性
rate = engine.getProperty('rate')  # 语速
volume = engine.getProperty('volume')  # 音量
pitch = engine.getProperty('pitch')  # 音调

# 设置新的语音属性
engine.setProperty('rate', 150)  # 设置语速为150
engine.setProperty('volume', 0.8)  # 设置音量为0.8
engine.setProperty('pitch', 1.2)  # 设置音调为1.2

# 定义语音助手的回应函数
def respond(text):
    print("助手：", text)
    engine.say(text)
    engine.runAndWait()

# 测试自定义语音属性
respond("你好！我是语音助手。")

# 恢复默认语音属性
engine.setProperty('rate', rate)  # 恢复默认语速
engine.setProperty('volume', volume)  # 恢复默认音量
engine.setProperty('pitch', pitch)  # 恢复默认音调

# 测试恢复默认语音属性
respond("你好！我是语音助手。")

在这个示例中，我们首先创建了一个 pyttsx3 的语音合成引擎对象。然后，通过 getProperty 方法获取当前的语音属性，包括语速、音量和音调。接下来，使用 setProperty 方法设置新的语音属性，例如将语速设置为150，音量设置为0.8，音调设置为1.2。然后，定义了一个回应函数 respond，该函数会打印回应文本并使用语音合成引擎进行语音输出。

在示例中，我们先测试了使用自定义语音属性的回应，然后恢复了默认的语音属性，并再次进行了回应测试。

你可以根据需要调整语音属性的值，以使语音更加自然和适合用户的喜好。请注意，具体的语音属性值可能因系统和语音引擎而异。你可以尝试不同的值来找到最适合的设置。

六、多语言支持示例代码

pyttsx3 支持多种语言和语音引擎，你可以通过设置 setProperty 方法来切换语言，从而实现多语言支持的语音助手。以下是一个示例代码：

import pyttsx3

# 创建语音合成引擎对象
engine = pyttsx3.init()

# 获取当前语音属性
voices = engine.getProperty('voices')

# 打印可用的语音列表
print("可用的语音列表：")
for voice in voices:
    print("名称:", voice.name)
    print("ID:", voice.id)
    print("语言:", voice.languages)
    print("性别:", voice.gender)
    print("")

# 设置新的语音属性（切换语言）
engine.setProperty('voice', voices[1].id)  # 设置语音为第二个可用语音

# 定义语音助手的回应函数
def respond(text):
    print("助手：", text)
    engine.say(text)
    engine.runAndWait()

# 测试多语言支持
respond("Hello! I am a multilingual voice assistant.")
respond("你好！我是一个多语言语音助手。")

# 恢复默认语音属性（切换回默认语言）
engine.setProperty('voice', voices[0].id)  # 设置语音为第一个可用语音

# 测试恢复默认语音属性
respond("Hello! I am a multilingual voice assistant.")
respond("你好！我是一个多语言语音助手。")

在这个示例中，我们首先创建了一个 pyttsx3 的语音合成引擎对象，并使用 getProperty 方法获取当前可用的语音列表。然后，我们打印了每个语音的名称、ID、语言和性别等信息。

接下来，使用 setProperty 方法将语音属性设置为第二个可用语音，以切换语言。你可以根据需要选择其他可用的语音。

然后，定义了一个回应函数 respond，该函数会打印回应文本并使用语音合成引擎进行语音输出。

在示例中，我们先测试了使用第二个可用语音的回应，然后恢复了默认的语音属性，再次进行了回应测试。

你可以根据需要选择合适的语音，以实现多语言支持的语音助手。请注意，可用的语音和语言取决于你的系统和安装的语音引擎。

七、语音控制应用程序示例代码

要创建一个可以通过语音控制的应用程序，你可以结合使用 pyttsx3 和其他库和框架来实现不同的功能。下面是一个示例代码，演示了如何使用 pyttsx3 和 pyautogui 库来实现语音控制鼠标和键盘：

import pyttsx3
import speech_recognition as sr
import pyautogui

# 创建语音合成引擎对象
engine = pyttsx3.init()

# 创建语音识别器对象
recognizer = sr.Recognizer()

# 定义语音助手的回应函数
def respond(text):
    print("助手：", text)
    engine.say(text)
    engine.runAndWait()

# 定义语音控制函数
def voice_control():
    with sr.Microphone() as source:
        print("请说话...")
        audio = recognizer.listen(source)

        try:
            # 使用语音识别器将语音转换为文本
            text = recognizer.recognize_google(audio, language='zh-CN')
            print("你说：", text)

            # 根据识别到的文本执行相应的操作
            if "向上" in text:
                pyautogui.move(0, -100, duration=0.5)  # 向上移动鼠标
            elif "向下" in text:
                pyautogui.move(0, 100, duration=0.5)  # 向下移动鼠标
            elif "向左" in text:
                pyautogui.move(-100, 0, duration=0.5)  # 向左移动鼠标
            elif "向右" in text:
                pyautogui.move(100, 0, duration=0.5)  # 向右移动鼠标
            elif "点击" in text:
                pyautogui.click()  # 点击鼠标左键
            elif "退出" in text:
                respond("再见！")
                return
            else:
                respond("抱歉，我无法理解你的指令。")

        except sr.UnknownValueError:
            respond("抱歉，无法识别你说的话。")
        except sr.RequestError:
            respond("抱歉，无法连接到语音识别服务。")

    # 继续监听语音输入
    voice_control()

# 启动语音控制
respond("你好！我是语音助手。请告诉我你想要做什么。")
voice_control()

在这个示例中，我们首先创建了一个 pyttsx3 的语音合成引擎对象和一个 speech_recognition 的语音识别器对象。然后，定义了一个回应函数 respond，该函数会打印回应文本并使用语音合成引擎进行语音输出。

接下来，定义了一个语音控制函数 voice_control，该函数使用语音识别器监听麦克风输入，并将语音转换为文本。根据识别到的文本，执行相应的操作，例如移动鼠标、点击鼠标等。

在示例中，我们定义了一些简单的指令，如 “向上”、“向下”、“向左”、“向右”、“点击” 等。你可以根据需要扩展指令和相应的操作。

最后，启动语音控制，语音助手会打招呼并等待你的指令。你可以说出相应的指令，语音助手会执行对应的操作。

请注意，此示例仅演示了如何结合 pyttsx3 和 pyautogui 库实现语音控制鼠标和键盘的功能。根据你的需求，你可以结合其他库和框架来实现更复杂的语音控制应用程序。

八、文本转语音通知示例代码

pyttsx3 库可以将文本转换为语音，实现通知功能。下面是一个示例代码，演示了如何使用 pyttsx3 将文本内容转换为语音并进行播放：

import pyttsx3

# 创建语音合成引擎对象
engine = pyttsx3.init()

# 定义文本转语音函数
def text_to_speech(text):
    engine.say(text)
    engine.runAndWait()

# 定义通知函数
def notify(message):
    print("通知：", message)
    text_to_speech(message)

# 示例用法
notify("这是一条通知消息。")
notify("你的日程安排已更新。")
notify("以下是今天的新闻摘要：")
notify("这是一条很长的通知消息，可以包含多个句子和段落。")

# 关闭语音合成引擎
engine.stop()

在这个示例中，我们首先创建了一个 pyttsx3 的语音合成引擎对象。然后，定义了一个文本转语音函数 text_to_speech，该函数使用语音合成引擎将文本转换为语音并进行播放。

接下来，定义了一个通知函数 notify，该函数接受一个文本消息作为参数，并打印通知消息并通过语音播放。

在示例中，我们使用 notify 函数演示了几个通知消息的例子。你可以根据需要调用 notify 函数，将不同的文本内容转换为语音进行通知。

最后，我们通过调用 engine.stop() 来关闭语音合成引擎。

请注意，使用 pyttsx3 进行文本转语音时，可以根据需要设置语音的属性，如语速、音量等。你可以使用 engine.setProperty 方法来设置这些属性。例如，engine.setProperty('rate', 150) 可以设置语速为 150 字符每分钟。

九、语音交互界面示例代码

要创建一个交互式的语音界面，可以结合使用 pyttsx3、pyaudio 和 speech_recognition 等库来实现语音输入和输出的功能。下面是一个示例代码，演示了如何创建一个简单的语音交互界面：

import pyttsx3
import speech_recognition as sr

# 创建语音合成引擎对象
engine = pyttsx3.init()

# 创建语音识别器对象
recognizer = sr.Recognizer()

# 定义语音助手的回应函数
def respond(text):
    print("助手：", text)
    engine.say(text)
    engine.runAndWait()

# 定义语音交互函数
def voice_interaction():
    with sr.Microphone() as source:
        print("请说话...")
        audio = recognizer.listen(source)

        try:
            # 使用语音识别器将语音转换为文本
            text = recognizer.recognize_google(audio, language='zh-CN')
            print("你说：", text)

            # 根据用户输入的文本进行相应的回应
            if "你好" in text:
                respond("你好！有什么我可以帮助你的吗？")
            elif "时间" in text:
                # 这里可以调用其他库或函数获取当前时间并进行回应
                respond("现在是晚上8点。")
            elif "退出" in text:
                respond("再见！")
                return
            else:
                respond("抱歉，我无法理解你的指令。")

        except sr.UnknownValueError:
            respond("抱歉，无法识别你说的话。")
        except sr.RequestError:
            respond("抱歉，无法连接到语音识别服务。")

    # 继续语音交互
    voice_interaction()

# 启动语音交互
respond("你好！我是语音助手。有什么我可以帮助你的吗？")
voice_interaction()

接下来，定义了一个语音交互函数 voice_interaction，该函数使用语音识别器监听麦克风输入，并将语音转换为文本。根据用户输入的文本，执行相应的回应。

在示例中，我们定义了一些简单的指令，如 “你好” 和 “时间”。根据用户的指令，语音助手会进行相应的回应。你可以根据需要扩展指令和相应的操作。

最后，启动语音交互，语音助手会打招呼并等待用户的指令。你可以通过语音与语音助手进行交互。

请注意，这个示例代码只是一个简单的交互式语音界面的演示。你可以根据自己的需求和应用场景，扩展和定制这个代码，结合其他库和框架实现更复杂的语音交互功能。

十、实现更复杂交互界面示例代码

当扩展和定制语音交互功能时，你可以根据自己的需求和应用场景，结合其他库和框架来实现更复杂的功能。以下是一个示例代码，展示了如何使用 pyttsx3、speech_recognition 和 wikipedia 库来创建一个语音交互的维基百科助手：

import pyttsx3
import speech_recognition as sr
import wikipedia

# 创建语音合成引擎对象
engine = pyttsx3.init()

# 创建语音识别器对象
recognizer = sr.Recognizer()

# 定义语音助手的回应函数
def respond(text):
    print("助手：", text)
    engine.say(text)
    engine.runAndWait()

# 定义语音交互函数
def voice_interaction():
    with sr.Microphone() as source:
        print("请说话...")
        audio = recognizer.listen(source)

        try:
            # 使用语音识别器将语音转换为文本
            text = recognizer.recognize_google(audio, language='zh-CN')
            print("你说：", text)

            # 根据用户输入的文本进行相应的回应
            if "你好" in text:
                respond("你好！有什么我可以帮助你的吗？")
            elif "维基百科" in text:
                query = text.replace("维基百科", "").strip()
                try:
                    # 使用维基百科库获取相关信息
                    summary = wikipedia.summary(query, sentences=2)
                    respond(summary)
                except wikipedia.exceptions.DisambiguationError as e:
                    respond("请提供更具体的查询内容。")
                except wikipedia.exceptions.PageError as e:
                    respond("抱歉，找不到相关信息。")
            elif "退出" in text:
                respond("再见！")
                return
            else:
                respond("抱歉，我无法理解你的指令。")

        except sr.UnknownValueError:
            respond("抱歉，无法识别你说的话。")
        except sr.RequestError:
            respond("抱歉，无法连接到语音识别服务。")

    # 继续语音交互
    voice_interaction()

# 启动语音交互
respond("你好！我是维基百科助手。有什么我可以帮助你的吗？")
voice_interaction()

在这个示例中，我们引入了 wikipedia 库，以便通过维基百科获取相关信息。当用户输入包含 “维基百科” 的指令时，我们使用 wikipedia.summary 函数来获取相关信息的摘要，并将其作为回应进行语音输出。

你可以根据自己的需求和应用场景，扩展和定制这个代码。例如，你可以使用其他库来获取天气信息、新闻摘要等，并根据用户的指令进行相应的回应。

请注意，使用维基百科库时，可能会遇到一些异常情况，如歧义性错误或页面错误。在示例中，我们使用了 try-except 块来处理这些异常情况，并作出相应的回应。

希望这个示例代码能够帮助你扩展和定制语音交互功能！

十一、归纳总结

当使用 pyttsx3 库实现语音助手时，以下是一些关键的知识点：

安装 pyttsx3 库：可以使用 pip 命令来安装 pyttsx3 库，例如 pip install pyttsx3。
初始化语音合成引擎：使用 pyttsx3.init() 函数来创建一个语音合成引擎对象。可以通过调用该对象的方法来进行语音合成。
设置语音合成属性：可以使用 engine.setProperty(property, value) 方法来设置语音合成的属性。例如，可以设置语速、音量等属性。
语音合成和播放：使用 engine.say(text) 方法将文本转换为语音。然后，使用 engine.runAndWait() 方法来播放语音。
支持多种语音引擎：pyttsx3 支持多种语音合成引擎，如 SAPI5、nsss、espeak 等。可以通过 pyttsx3.init(driverName) 指定要使用的语音引擎。
获取可用的语音引擎列表：可以使用 pyttsx3.init() 函数的 engine.getProperty('voices') 方法来获取可用的语音引擎列表。可以根据需要选择合适的语音引擎。
设置语音引擎：可以使用 engine.setProperty('voice', voice_id) 方法来设置要使用的语音引擎。可以将 voice_id 设置为语音引擎列表中的一个元素。
控制语音合成的事件和回调：pyttsx3 提供了一些事件和回调函数，可以用于控制语音合成的过程。例如，可以使用 engine.connect('started', callback_function) 方法来注册一个回调函数，在语音合成开始时触发。
异步语音合成：pyttsx3 支持异步语音合成，可以使用 engine.startLoop() 和 engine.endLoop() 方法来控制异步合成的循环。
关闭语音合成引擎：在程序结束时，可以使用 engine.stop() 和 engine.shutdown() 方法来关闭语音合成引擎。

这些是使用 pyttsx3 库实现语音助手时的一些重要知识点。通过了解和掌握这些知识点，你可以更好地使用 pyttsx3 库来实现语音合成的功能。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

二维码

python｜闲谈2048小游戏和数组的旋转及翻转和转置

< <上一篇

Anaconda更换镜像源的相关配置

下一篇>>

搜索内容