直播-拉流和推流概述

article/2025/9/26 16:56:35

拉流（播放）

根据协议类型（如RTMP、RTP、RTSP、HTTP等），与服务器建立连接并接收数据；

解析二进制数据，从中找到相关流信息；
根据不同的封装格式（如FLV、TS）解复用（demux）；
分别得到已编码的H.264视频数据和AAC音频数据；
使用硬解码（对应系统的API）或软解码（FFMpeg）来解压音视频数据；
经过解码后得到原始的视频数据（YUV）和音频数据（AAC）；
因为音频和视频解码是分开的，所以我们得把它们同步起来，否则会出现音视频不同步的现象，比如别人说话会跟口型对不上；
最后把同步的音频数据送到耳机或外放，视频数据送到屏幕上显示。

了解了播放器的播放流程后，我们可以优化以下几点：

首屏时间优化
从步骤2入手，通过预设解码器类型，省去探测文件类型时间；
从步骤5入手，缩小视频数据探测范围，同时也意味着减少了需要下载的数据量，特别是在网络不好的时候，减少下载的数据量能为启动播放节省大量的时间，当检测到I帧数据后就立马返回并进入解码环节。

推流

在这里插入图片描述

经过输出设备(AVCaptureVideoDataOutput)得到原始的采样数据–视频数据（YUV）和音频数据（AAC）；
使用硬编码（对应系统的API）或软编码（FFMpeg）来编码压缩音视频数据；
分别得到已编码的H.264视频数据和AAC音频数据；
根据不同的封装格式（如FLV、TS、MPEG-TS）；
使用HLS协议的时候加上这一步（HLS分段生成策略及m3u8索引文件）；
通过流上传到服务器；
服务器进行相关协议的分发；

推流步骤说明：很容易看出推流跟播放其实是逆向的，具体流程就不多说了。

优化一：适当的Qos（Quality of Service，服务质量）策略。
推流端会根据当前上行网络情况控制音视频数据发包和编码，在网络较差的情况下，音视频数据发送不出去，造成数据滞留在本地，这时，会停掉编码器防止发送数据进一步滞留，同时会根据网络情况选择合适的策略控制音视频发送。
比如网络很差的情况下，推流端会优先发送音频数据，保证用户能听到声音，并在一定间隔内发关键帧数据，保证用户在一定时间间隔之后能看到一些画面的变化。
优化二：合理的关键帧配置。
合理控制关键帧发送间隔（建议2秒或1秒一个），这样可以减少后端处理过程，为后端的缓冲区设置更小创造条件。

软硬编解选择

网上有不少关于选择软解还是硬解的分析文章，这里也介绍一些经验，但根本问题是，没有一个通用方案能最优适配所有操作系统和机型；
推流编码：推荐Andorid4.3（API18）或以上使用硬编，以下版本使用软编；iOS使用全硬编方案；
播放解码：Andorid、iOS播放器都使用软解码方案，经过我们和大量客户的测试以及总结，虽然牺牲了功耗，但是在部分细节方面表现会较优，且可控性强，兼容性也强，出错情况少，推荐使用。
附软硬编解码优缺点对比：

编解码器类型	优点	缺点
软编解码	各平台兼容性强；解码色彩较硬编码好；编解码可操控空间大，自由度高，更容易定制	cpu消耗比较大
硬编解码	功耗低，执行效率比较高	不同机型的芯片对编解码的实现不同，兼容性比较差；可控性比较差

采集

采集的步骤：

创建AVCaptureSession
输入对象AVCaptureDeviceInput
输出对象AVCaptureVideoDataOutput
输出代理方法captureOutput(_:didOutputSampleBuffer:fromConnection:)

相关内容

采集数据：iOS平台上采集音视频数据，需要使用AVFoundation.Framework框架，从captureSession会话的回调中获取音频，视频数据。
传输层协议：主要采用RTMP协议居多（默认端口1935，采用TCP协议），也有部分使用HLS协议
音/视频编码解码：FFmpeg编码解码
视频编码格式：H.265、H.264、MPEG-4等，封装容器有TS、MKV、AVI、MP4等
音频编码格式：G.711μ、AAC、Opus等，封装有MP3、OGG、AAC等
渲染工具：采用OpenGL渲染YUV数据，呈现视频画面。将PCM送入设备的硬件资源播放，产生声音。iOS播放流式音频，使用Audio Queue 的方式，即，利用AudioToolbox.Framework 框架。

http://chatgpt.dhexx.cn/article/Q15gnJaf.shtml

相关文章

【流媒体】推流与拉流简介

【流媒体】推流与拉流简介

本文目录一、概念 1.1 推流 1.2 拉流二、示意图三、RTMP传输协议四、流媒体协议与格式一、概念话不多说，先了解概念，再看示意图更直观： 1.1 推流推流：将直播的内容推送至服务器的过程。即指的是把采集阶段封包好的…

阅读更多...

OBS推流直播软件安装教程

OBS推流直播软件安装教程

OBS推流直播软件安装教程一、安装推流软件 1.双击运行 OBS-Studio-21.1-Full-Installer.exe 安装包程序 2.点击 Next 3.点击I Agree （不知道为啥显示图片了可以复制里面的连接到浏览器打开） 4.点击Next 5.点击Install 6.点击Finish&#xff0…

阅读更多...

四款好用的免费直播编码推流软件

四款好用的免费直播编码推流软件

现代生活已经离不开互联网，离不开软件了。这说法毫不夸张。比如手机上各种 APP 眼花缭乱 ,各种行业, 各种功能, 各种 Logo, 各种的各种。没有良好的整理力，是真的不好意思让别人看到啊。这些功能各异的 APP 程序大多数是免费 APP。今天我们来谈谈…

阅读更多...

Android手机屏幕RTMP推流工具

Android手机屏幕RTMP推流工具

Android手机屏幕RTMP推流工具是基于ffmpegopencv开发的C（eclipse、androidstudio）程序，是一款可以将安卓手机屏幕上的任何内容推送到任意一款rtmp服务器上的工具，不仅可以分享手机屏幕内容，还可以分享手机上正在播放的…

阅读更多...

三款免费的直播推流软件介绍

三款免费的直播推流软件介绍

三款免费的直播推流软件介绍： 1. Adobe Flash Media Encoder 2. Open Broadcaster Software 3. iAVcast 1）Flash Media Live Encoder 3.2 由著名的Adobe公司出品，值得信赖，Adobe好长时间已经停止更新了&…

阅读更多...

tensorflow中的sess.run()

tensorflow中的sess.run()

1.feed_dict feed_dict的作用是给使用placeholder创建出来的tensor赋值，feed使用一个值临时替换一个op的输出结果。 2.sess.run() 构建完图后，需要在一个会话中启动图，启动的第一步是创建一个Session对象。在执行sess.run()时，te…

阅读更多...

tensorflow sess.run()

tensorflow sess.run()

函数参数run( fetches, feed_dictNone, optionsNone, run_metadataNone) feed_dict参数的作用是替换图中的某个tensor的值。例如： a tf.add(2, 5) b tf.multiply(a, 3) with tf.Session() as sess: sess.run(b) 21 replace_dict {a： 1…

阅读更多...

sess.run()自我理解

sess.run()自我理解

import tensorflow as tf a tf.constant([[1,2],[3,4]]) print(a) matrix2 tf.placeholder(float32,[2,2]) matrix1 matrix2#浅拷贝 sess tf.Session() print(sess.run(a)) print(a) asess.run(a) print(a) print(sess.run(matrix2 ,feed_dict{matrix2:a})) #只要是sess.…

阅读更多...

Oracle视图学习DBA_HIST_ACTIVE_SESS_HISTORY

Oracle视图学习DBA_HIST_ACTIVE_SESS_HISTORY

dba_hist_active_sess_history:这个视图是用来生成 ASH report 的, 但是 ASH report 并没有充分的利用这个视图的强大之处,我们通过分析这个视图的详细数据,往往可以找到问题发生的原因. 可以从宏观和微观两个维度来分析这个视图(用 11gR2 的 dba_hist_active_sess_history 做…

阅读更多...

tensorflow的sess.run的参数执行顺序

tensorflow的sess.run的参数执行顺序

sess.run的多个参数执行是将整个计算图中所有需要计算的节点，计算完全后一次行输出， 两次print顺序不同，结果不同 import tensorflow as tf# 基础数据 state1 tf.Variable(0, dtypetf.int8,name mi) state tf.Variable(0, dtypetf.int8…

阅读更多...

sess.run()

sess.run()

函数：run(fetches, feed_dictNone, optionsNone, run_metadataNone) 当构建完图后，需要在一个session会话中启动图，第一步是创建一个Session对象。为了取回（Fetch）操作的输出内容, 可以在使用 Session 对象…

阅读更多...

Paper Reading：SESS（Self-Ensembling Semi-supervised3D ObjectDetction）

Paper Reading：SESS（Self-Ensembling Semi-supervised3D ObjectDetction）

BackGround 虽然3D点云的目标检测当前运用十分广泛，但是当前大部分3D目标检测的方法强依赖于带有标注的数据。这些带有标注的数据往往是需要付出昂贵的代价，在2021年的水平大概是￥0.1一个框，那么一帧数据也就是对应的&#xffe5…

阅读更多...

SESS: Self-Ensembling Semi-Supervised 3D Object Detection论文阅读及理解

SESS: Self-Ensembling Semi-Supervised 3D Object Detection论文阅读及理解

SESS: Self-Ensembling Semi-Supervised 3D Object Detection Abstract 3d检测通常以来目标的标签和注释，然而获得这些注释是十分困难的。 SESS一种自集成的半监督三维目标检测框架。设计了一种扰动方案，加强对未标记数据和新的为可见数据的泛化。 …

阅读更多...

Elasticsearch——》ngram分词器

Elasticsearch——》ngram分词器

推荐链接： 总结——》【Java】总结——》【Mysql】总结——》【Redis】总结——》【Kafka】总结——》【Spring】总结——》【SpringBoot】总结——》【MyBatis、MyBatis-Plus】总结——》【Linux】总结——》【MongoD…

阅读更多...

Elasticsearch 的 NGram 分词器使用技巧

Elasticsearch 的 NGram 分词器使用技巧

一、什么是NGram 分词器？ NGram分词器是ES自带的具有前缀匹配搜索功能的一个文本分词器。它能根据文本的步长逐步对写入的文本内容进行约束切割; 二、NGram和index-time搜索推荐原理搜索的时候，不用再根据一个前缀，然后扫描整个倒排索引了…

阅读更多...

Ngram模型

Ngram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔划，或代表字母或笔划的数字&…

阅读更多...

ElasticSearch之ngram分词器

ElasticSearch之ngram分词器

一、什么是NGram 分词器？ edge_ngram和ngram是ElasticSearch自带的两个分词器，一般设置索引映射的时候都会用到，设置完步长之后，就可以直接给解析器analyzer的tokenizer赋值使用。二、怎么使用完整的索引结构： {&…

阅读更多...

MySql的Ngram全文索引

MySql的Ngram全文索引

前言在我们日常开发中，很多时候会遇到对数据库中某个字段模糊查询的需求，也就是like某个字段，但是很多公司像阿里，京东都禁止使用like来对数据库进行模糊查询，原因是啥呢？ 我们先来看下面三条语句其中t…

阅读更多...

语言模型-Ngram

语言模型-Ngram

总结工作中用到和学习的知识，也算自己的一个笔记。语言模型语言模型简单来讲，就是计算一个句子的概率，更确切的说是计算组成这个句子一系列词语的概率。举个简单的例子，我们知道“武松打死了老虎”相比于“老虎了死武松打”，更像是一句正常的话，这是因为前者出…

阅读更多...

N-gram算法

N-gram算法

语言模型语言模型起源于语音识别(speech recognition)，输入一段音频数据，语音识别系统通常会生成多个句子作为候选，究竟哪个句子更合理？就需要用到语言模型对候选句子进行排序。语言模型：对于任意的词序列&#xf…

阅读更多...

推荐文章