软件架构中视频压缩是在服务器压缩还是在客户端压缩
可以在服务器端进行,也可以在客户端进行。
服务器端压缩可以通过使用专业的视频压缩软件或算法实现,例如FFmpeg等。客户端压缩可以通过使用浏览器插件或JavaScript等技术实现。
如果客户端资源有限,建议采用服务器端压缩;如果客户端资源充足且网络条件较好,可以采用客户端压缩以提高用户体验。
用户针对一个PPT的每一页,进行语音录制,输出多段音频文件,将用户每段音频和对应的PPT拼接起来,最后输出成一整段MP4视频,作为教学视频播放
针对需求,最开始提出了几个主要的方案
最终定了方案三,原因是该功能的受众是老年用户,手机性能可能很差,耗时的操作交给服务端来比较合适
查询了一下,对应+音频合成视频,这样的音画合成的操作,七牛并没有提供API~
所以只能服务端采用万能的多媒体处理工具:ffmpeg 了,整体方案如下
可以看到上述方案,有两个关键操作:
注意,七牛提供了视频mp4拼接的接口,但是经过实践,用ffmpeg进行本地视频mp4拼接没有任何问题,并且速度很快,所以这里所有操作都用 本地 ffmpeg 来进行
ffmpeg 不具体介绍,详情可自行google:
官网: https://ffmpegorg/
参数详解: https://zhuanlanzhihucom/p/31674583
具体ffmpeg的命令执行操作,第一版的执行如下:
咨询了人森导师手哥,他给我介绍了一个工具:mediainfo,该工具可以查看视频详情,如音轨(Audio)和画面(Video)的时长,通过该工具可以看到通过第一版操作音画合成的视频,画面时长只有40ms,然而音轨时长却有7s,这里存在严重的不同步,因此在有些浏览器(safari)中并不能正常拖动进度条播放:
参考: Combine one image + one audio file to make one video using FFmpeg
中"community wiki"的回答,使用如下ffmpeg命令可以正常生成Video_Duration和Audio_Duration接近的视频
现象是明明是第一个PPT的录音,画面已经翻到PPT第二页了,录音还在播放第一页PPT尾段的录制语音
原因:通过 mediainfo 查看最后生成的 最终拼接视频,发现还是存在 Video_Duration和Audio_Duration 不一致的问题
应该是第一步音画合成的视频片段本身就有 Video_Duration和Audio_Duration 不完全一致,将他们拼接起来后,是音轨和画面轨道分别拼接,最后两条轴出现了不一致的问题。
因此,我们需要在第一步音画合成的时候做处理,让 Video_Duration和Audio_Duration 保持严格一致或尽量接近
在音画合成后,多一步操作,对合成的视频片段,进行人为剪裁~让视频的 Video_Duration和Audio_Duration 保持一致:
如此生成的视频 Video_Duration和Audio_Duration 不会有太大差距。
和安卓端同学沟通后,定位问题是视频缺少关键帧,需要为视频加入关键帧
参考: https://codedayme/bug/20180927/259812html
在音画合成截断,就针对视频插入关键帧,关键命令:
上面的keyint=1表示每隔1帧插入设置一个关键帧
首先观察现象,发现 大小为 212k,音频 aac 文件大小为 132k,生成的视频文件居然会是540k
怀疑是帧率问题,google了一下,ffmpeg指令如果不人为设定帧率,默认帧率为25,而我们音画合成的视频就是一张,并不需要太高的帧率,这个地方应该可以优化下
参考: https://zhuanlanzhihucom/p/31674583
经过人为设置帧率为1,生成文件大小优化为356k
人为设置帧率为1的关键指令如下:
同时,写了个小脚本,做了下实验验证,人为设置帧率,也大大降低了处理速度:
从上面的实验看起来,针对1分钟的音频,人为设置帧率为2使得处理耗时降低了至少50%,生成文件大小降低了近60%
音画合成后的视频,是带有关键帧信息的,为何截断后又丢失了关键帧?
经过仔细对比,发现音画合成和截断的命令,有着细微差距
仔细观察上面两个命令,经过google,发现 -c:a和-acodec是一个意思,表示音频编码方式,-c:v和-vcodec是一个意思,表示视频编码方式
这里两个指令的 视频编码方式,一个指定的使用 libx264,一个使用h264, 怀疑是这里的不一致导致关键帧丢失
经过试验,发现猜测正确。
将音画合成和视频截断的音频解码方式统一为 libx264,就能保证截断后视频的关键帧不丢失:
三个步骤:
该指令人为设置合成帧率为1,降低处理耗时和生成文件大小,
人为设置关键帧间隔为每间隔1帧设置一个,解决安卓RN播放无法拉动进度条的问题
参考: 我是CSDN博客链接
截断是为了保证音轨长度和画面轨道长度
尽量保持一致,杜绝拼接后的音画不同步问题
//第一步:注册组件->编码器、解码器等等…
av_register_all();
//第二步:初始化封装格式上下文->视频编码->处理为视频压缩数据格式
AVFormatContext avformat_context = avformat_alloc_context();
//注意事项:FFmepg程序推测输出文件类型->视频压缩数据格式类型
const char coutFilePath = [outFilePath UTF8String];
//得到视频压缩数据格式类型(h264、h265、mpeg2等等)
AVOutputFormat avoutput_format = av_guess_format(NULL, coutFilePath, NULL);
//指定类型
avformat_context->oformat = avoutput_format;
//第三步:打开输出文件
//参数一:输出流
//参数二:输出文件
//参数三:权限->输出到文件中
if (avio_open(&avformat_context->pb, coutFilePath, AVIO_FLAG_WRITE) < 0) {
NSLog(@"打开输出文件失败");
return;
}
//第四步:创建输出码流->创建了一块内存空间->并不知道他是什么类型流->希望他是视频流
AVStream av_video_stream = avformat_new_stream(avformat_context, NULL);
//第五步:查找视频编码器
//1、获取编码器上下文
AVCodecContext avcodec_context = av_video_stream->codec;
//2、设置编解码器上下文参数->必需设置->不可少
//目标:设置为是一个视频编码器上下文->指定的是视频编码器
//上下文种类:视频解码器、视频编码器、音频解码器、音频编码器
//21 设置视频编码器ID
avcodec_context->codec_id = avoutput_format->video_codec;
//22 设置编码器类型->视频编码器
//视频编码器->AVMEDIA_TYPE_VIDEO
//音频编码器->AVMEDIA_TYPE_AUDIO
avcodec_context->codec_type = AVMEDIA_TYPE_VIDEO;
//23 设置读取像素数据格式->编码的是像素数据格式->视频像素数据格式->YUV420P(YUV422P、YUV444P等等)
//注意:这个类型是根据你解码的时候指定的解码的视频像素数据格式类型
avcodec_context->pix_fmt = AV_PIX_FMT_YUV420P;
//24 设置视频宽高->视频尺寸
avcodec_context->width = 640;
avcodec_context->height = 352;
//25 设置帧率->表示每秒25帧
//视频信息->帧率 : 25000 fps
//f表示:帧数
//ps表示:时间(单位:每秒)
avcodec_context->time_basenum = 1;
avcodec_context->time_baseden = 25;
//26 设置码率
//261 什么是码率?
//含义:每秒传送的比特(bit)数单位为 bps(Bit Per Second),比特率越高,传送数据速度越快。
//单位:bps,"b"表示数据量,"ps"表示每秒
//目的:视频处理->视频码率
//262 什么是视频码率
//含义:视频码率就是数据传输时单位时间传送的数据位数,一般我们用的单位是kbps即千位每秒
//视频码率计算如下?
//基本的算法是:码率(kbps)=视频大小 - 音频大小(bit位) /时间(秒)
//例如:Testmov时间 = 24,文件大小(视频+音频) = 173MB
//视频大小 = 134MB(文件占比:77%) = 134MB 1024 1024 8 = 字节大小 = 468365字节 = 468Kbps
//音频大小 = 376KB(文件占比:21%)
//计算出来值->码率 : 468Kbps->表示1000,b表示位(bit->位)
//总结:码率越大,视频越大
avcodec_context->bit_rate = 468000;
//27 设置GOP->影响到视频质量问题->画面组->一组连续画面
//MPEG格式画面类型:3种类型->分为->I帧、P帧、B帧
//I帧->内部编码帧->原始帧(原始视频数据)
// 完整画面->关键帧(必需的有,如果没有I,那么你无法进行编码,解码)
// 视频第1帧->视频序列中的第一个帧始终都是I帧,因为它是关键帧
//P帧->向前预测帧->预测前面的一帧类型,处理数据(前面->I帧、B帧)
// P帧数据->根据前面的一帧数据->进行处理->得到了P帧
//B帧->前后预测帧(双向预测帧)->前面一帧和后面一帧
// B帧压缩率高,但是对解码性能要求较高。
//总结:I只需要考虑自己 = 1帧,P帧考虑自己+前面一帧 = 2帧,B帧考虑自己+前后帧 = 3帧
// 说白了->P帧和B帧是对I帧压缩
//每250帧,插入1个I帧,I帧越少,视频越小->默认值->视频不一样
avcodec_context->gop_size = 250;
//28 设置量化参数->数学算法(高级算法)->不讲解了
//总结:量化系数越小,视频越是清晰
//一般情况下都是默认值,最小量化系数默认值是10,最大量化系数默认值是51
avcodec_context->qmin = 10;
avcodec_context->qmax = 51;
//29 设置b帧最大值->设置不需要B帧
avcodec_context->max_b_frames = 0;
//第二点:查找编码器->h264
//找不到编码器->h264
//重要原因是因为:编译库没有依赖x264库(默认情况下FFmpeg没有编译进行h264库)
//第一步:编译h264库
AVCodec avcodec = avcodec_find_encoder(avcodec_context->codec_id);
if (avcodec == NULL) {
NSLog(@"找不到编码器");
return;
}
NSLog(@"编码器名称为:%s", avcodec->name);
//第六步:打开h264编码器
//缺少优化步骤?
//编码延时问题
//编码选项->编码设置
AVDictionary param = 0;
if (avcodec_context->codec_id == AV_CODEC_ID_H264) {
//需要查看x264源码->x264c文件
//第一个值:预备参数
//key: preset
//value: slow->慢
//value: superfast->超快
av_dict_set(¶m, "preset", "slow", 0);
//第二个值:调优
//key: tune->调优
//value: zerolatency->零延迟
av_dict_set(¶m, "tune", "zerolatency", 0);
}
if (avcodec_open2(avcodec_context, avcodec, ¶m) < 0) {
NSLog(@"打开编码器失败");
return;
}
//第七步:写入文件头信息
avformat_write_header(avformat_context, NULL);
//第8步:循环编码yuv文件->视频像素数据(yuv格式)->编码->视频压缩数据(h264格式)
//81 定义一个缓冲区
//作用:缓存一帧视频像素数据
//811 获取缓冲区大小
int buffer_size = av_image_get_buffer_size(avcodec_context->pix_fmt,
avcodec_context->width,
avcodec_context->height,
1);
//812 创建一个缓冲区
int y_size = avcodec_context->width avcodec_context->height;
uint8_t out_buffer = (uint8_t ) av_malloc(buffer_size);
//813 打开输入文件
const char cinFilePath = [inFilePath UTF8String];
FILE in_file = fopen(cinFilePath, "rb");
if (in_file == NULL) {
NSLog(@"文件不存在");
return;
}
//821 开辟一块内存空间->av_frame_alloc
//开辟了一块内存空间
AVFrame av_frame = av_frame_alloc();
//822 设置缓冲区和AVFrame类型保持一直->填充数据
av_image_fill_arrays(av_frame->data,
av_frame->linesize,
out_buffer,
avcodec_context->pix_fmt,
avcodec_context->width,
avcodec_context->height,
1);
int i = 0;
//92 接收一帧视频像素数据->编码为->视频压缩数据格式
AVPacket av_packet = (AVPacket ) av_malloc(buffer_size);
int result = 0;
int current_frame_index = 1;
while (true) {
//81 从yuv文件里面读取缓冲区
//读取大小:y_size 3 / 2
if (fread(out_buffer, 1, y_size 3 / 2, in_file) <= 0) {
NSLog(@"读取完毕");
break;
}else if (feof(in_file)) {
break;
}
//82 将缓冲区数据->转成AVFrame类型
//给AVFrame填充数据
//823 void restrict->->转成->AVFrame->ffmpeg数据类型
//Y值
av_frame->data[0] = out_buffer;
//U值
av_frame->data[1] = out_buffer + y_size;
//V值
av_frame->data[2] = out_buffer + y_size 5 / 4;
av_frame->pts = i;
//注意时间戳
i++;
//总结:这样一来我们的AVFrame就有数据了
//第9步:视频编码处理
//91 发送一帧视频像素数据
avcodec_send_frame(avcodec_context, av_frame);
//92 接收一帧视频像素数据->编码为->视频压缩数据格式
result =avcodec_receive_packet(avcodec_context, av_packet);
//93 判定是否编码成功
if (result == 0) {
//编码成功
//第10步:将视频压缩数据->写入到输出文件中->outFilePath
av_packet->stream_index = av_video_stream->index;
result =av_write_frame(avformat_context, av_packet);
NSLog(@"当前是第%d帧", current_frame_index);
current_frame_index++;
//是否输出成功
if (result < 0) {
NSLog(@"输出一帧数据失败");
return;
}
}
}
//第11步:写入剩余帧数据->可能没有
flush_encoder(avformat_context, 0);
//第12步:写入文件尾部信息
av_write_trailer(avformat_context);
//第13步:释放内存
avcodec_close(avcodec_context);
av_free(av_frame);
av_free(out_buffer);
av_packet_free(&av_packet);
avio_close(avformat_context->pb);
avformat_free_context(avformat_context);
fclose(in_file);
Windows下FFmpeg快速入门
FFmpeg简介
FFmpeg是什么?
FFmpeg是用于录制、转换和流化音频和视频的完整解决方案,
包括
libavcodec
,一套领先的音/视频编解码类库。FFmpeg
在Linux上开发,当可以在大多数操作系统下编译,包括Windows。
Note
FFmpeg对GCC的依赖很强,所以就算是在Windows上,
用VC编译FFmpeg也不是一件轻松的事情。请尽量使用
GCC来编译FFmpeg,比较事半功倍。
FFmpeg的组成结构
FFmpeg主要由一下几个部分组成:
libavcodec:
一个包含了所有FFmpeg音视频编解码器的库。
为了保证最优性能和高可复用性,大多数编解码器从头开发的。
libavformat:
一个包含了所有的普通音视格式的解析器和
产生器的库。
ffmpeg:命令行的视频格式转换程序。
ffplay:视频播放程序。(需要SDL支持)
ffserver:多媒体服务器
三个实例程序,这三个实例较为复杂,基本可以作为API使用手册:
了解完组成结构后,你会发现,如果你在寻找一种视频格式转换
的方式,那FFmpeg绝对是你的第一选择,libavcodec
则又是重
中之重。如果遇上API不会使用的情况,可以参考ffmpegc、ffplayc、
ffserverc、apiexamplec(解码)和output_examplec(编码)。
FFmpeg的编译
要使用FFmpeg,第一步就是编译,编译FFmpeg是一个复杂的过程,如果你想加快速度,领略FFmpeg
的风采,则可以跳过这一步,直接进入下一章节。
FFmpeg的SDK
FFmpeg是一个复杂的工程,第一步编译,特别是Windows下的编译
过程,更是复杂。
因此,好心的网友提供了Windows下编译好的
dll和lib库文件,以及相关的头文件。新手们则可直接下载,并开始编写
FFmpeg库的程序了。
以上两者已经足以完成FFmpeg的入门,最新的SDK版本是30,
对应于FFmpeg的版本是
r10087。新手们可以从编译源代码库中的
output_examplec开始,同时参考
SDK入门宝典
。
编译output_examplec的时候需要注意以下问题:
VC的是不支持C语言中的inline,所以可以把相关的inline删除。
对于snprintf的支持,可以考虑下载
snprintfh和snprintfc放入工程中。
0条评论