LLM多模态开发

张

张建站

2026/7/17 0:04:45

10分钟阅读

图 / 文之间的相互转换、TTS/ASR/OCRTTSText-to-Speech文本转语音将文字信息转化为语音输出的技术。ASRAutomatic Speech Recognition自动语音识别将语音信号转化为文字的技术OCROptical Character Recognition光学字符识别将图像或扫描件中的文字转化为可编辑的文本的技术。TTSOpenAI 的 tts-1 模型追求的是生成音频的速度from openai import OpenAI client OpenAI() speech_file_path AI_speech.mp3 response client.audio.speech.create( modeltts-1, voicealloy, inputxxx ) response.stream_to_file(speech_file_path)tts-1-hd追求的是声音质量。ASR自动语音识别ASR是另一个受益于大语言模型发展的领域。# 导入所需的库 import os import cv2 # 视频处理 import base64 # 编码帧 from moviepy.editor import VideoFileClip # 音频处理 VIDEO_FILE Good_Driver.mp4 def extract_frames_and_audio(video_file, interval2): encoded_frames [] file_name, _ os.path.splitext(video_file) video_capture cv2.VideoCapture(video_file) total_frame_count int(video_capture.get(cv2.CAP_PROP_FRAME_COUNT)) frame_rate video_capture.get(cv2.CAP_PROP_FPS) frames_interval int(frame_rate * interval) current_frame 0 # 循环遍历视频并以指定的采样率提取帧 while current_frame total_frame_count - 1: video_capture.set(cv2.CAP_PROP_POS_FRAMES, current_frame) success, frame video_capture.read() if not success: break _, buffer cv2.imencode(.jpg, frame) encoded_frames.append(base64.b64encode(buffer).decode(utf-8)) current_frame frames_interval video_capture.release() # 从视频中提取音频 audio_output f{file_name}.mp3 video_clip VideoFileClip(video_file) video_clip.audio.write_audiofile(audio_output, bitrate32k) video_clip.audio.close() video_clip.close() print(f提取了 {len(encoded_frames)} 帧) print(f音频提取到 {audio_output}) return encoded_frames, audio_output # 每2秒提取1帧采样率 encoded_frames, audio_output extract_frames_and_audio(VIDEO_FILE, interval2)

Windows PDF处理终极指南：零依赖的Poppler工具集

Windows PDF处理终极指南：零依赖的Poppler工具集【免费下载链接】poppler-windows Download Poppler binaries packaged for Windows with dependencies 项目地址: https://gitcode.com/gh_mirrors/po/poppler-windows 还在为Windows系统上的PDF处理工具烦恼…...

2026/6/27 9:49:12 阅读更多 →

从混淆矩阵到AUC：解读二分类模型评估的核心指标与置信区间

1. 从混淆矩阵开始：理解二分类模型的评估基础当你训练好一个二分类模型后，第一件事就是要评估它的性能。这时候混淆矩阵（Confusion Matrix）就是你的最佳起点。我刚开始接触机器学习时，经常被各种评估指标搞得晕头转向…...

2026/7/14 2:37:07 阅读更多 →

如何用 childNodes 与 children 区分文本节点与元素子节点

childNodes返回所有子节点（含文本、注释等），children仅返回元素节点；前者包含空白文本节点，后者自动过滤非元素内容，更简洁安全。childNodes 和 children 都是用来获取元素子节点的属性，但它们返…...

2026/6/27 20:50:09 阅读更多 →

渔人的直感：你的FF14智能钓鱼助手，让钓鱼变得简单又高效

渔人的直感：你的FF14智能钓鱼助手，让钓鱼变得简单又高效【免费下载链接】Fishers-Intuition 渔人的直感，最终幻想14钓鱼计时器项目地址: https://gitcode.com/gh_mirrors/fi/Fishers-Intuition 在《最终幻想14》的广阔世界中&#x…...

2026/7/16 1:29:00 阅读更多 →

操作系统原理 4 大核心调度算法对比：FCFS/SJF/HRRN/轮转吞吐与响应时间实测

操作系统四大核心调度算法深度解析：从理论到量化实践引言：调度算法的战略价值在多道程序设计的操作系统中，进程调度算法如同交通指挥系统，决定了计算资源的高效分配。当多个进程竞争有限的CPU资源时，如何公平合理地分配…...

2026/7/15 23:12:17 阅读更多 →

Scrapy 中使用的 `parsel` 是一个独立的、轻量级的 HTML/XML 解析库，专为高效提取网页数据而设计

Scrapy 中使用的 parsel 是一个独立的、轻量级的 HTML/XML 解析库，专为高效提取网页数据而设计。它被 Scrapy 内部用作默认的选择器引擎（替代了早期版本中基于 lxml 的直接封装），提供类似 jQuery 的 CSS 选择器和 XPath 表达式支持…...

2026/7/16 11:25:25 阅读更多 →

创作革新：TEdit地图编辑器释放泰拉瑞亚世界的无限表达可能

创作革新：TEdit地图编辑器释放泰拉瑞亚世界的无限表达可能【免费下载链接】Terraria-Map-Editor TEdit - Terraria Map Editor - TEdit is a stand alone, open source map editor for Terraria. It lets you edit maps just like (almost) paint! It also lets yo…...

2026/7/16 23:05:19 阅读更多 →