音频应用 | 易学教程

Android 能够暂停的录音功能

阅读更多关于 Android 能够暂停的录音功能

Android ApI提供了MediaRecorder和AudioRecord两个类给开发者来很方便地实现音视频的录制(前者可以实现音频和视频的录制，后者只能实现音频的录制)。这两个类都提供了start()和stop()方法用于开始和结束音频或视频的录制，但令人费解的是这两个类都没有提供pause()方法用于暂停录制音视频，因为在实际应用当中，暂停录制的功能是非常有必要的Android 实现能够暂停的录音功能需实现音频录制的暂停功能，并且生成的音频文件格式必须是m4a格式为什么项目中音频文件一定要采用m4a格式的呢？有以下几点原因： 1. 录制相同时间的音频，使用m4a格式存储的文件的大小要比使用其它格式类型存储的文件的大小要小(通过实验多次，在相同采样率16000的情况下，一般录制5分钟的音频，采用m4a格式存储的音频文件只有1.2Mb，而采用arm、mp3及其它格式的一般都有2-5Mb)，这样当用户需要下载或上传录制的音频文件时，可以节省流量，并且相同压缩率的前提下，m4a格式音频的音质相比其它格式的也更高； 2.产品同时拥有Android客户端和IOS客户端，那为了避免使用Android客户端的用户录制的音频上传到服务器之后，使用IOS客户端的用户下载下来发生无法播放的问题，我们需统一录制音频的存储格式

从DRA音频标准（国标级）来看技术创新(一)

阅读更多关于从DRA音频标准（国标级）来看技术创新(一)

先来看一下DRA音频国家标准大事记的列表，就可以了解DRA的辉煌历程： 2004 年 6 月广州广晟数码技术有限公司成立（以下简称广晟数码），公司由广东省广晟资产管理有限公司投资、技术团队以其技术方案入股的方式组建。广晟数码致力于我国自主知识产权的数字音视频编解码技术研发。--- ［Liupin］为一编解码算法成立一公司，足可以看出现在对标准的制定的重视，现在牛的公司都是去制定行业的标准，这样同行业再做，你必须去follow这个标准。如Dolby, Qualcomm, Coding Technology(现被Dolby收购)等都是告技术授权来发财的 8 月广晟数码完成了 DRA 编解码软件的开发工作。 12 月广晟数码完成了 DRA 解码算法在 DSP 专用芯片的技术实现。 2005 年 1 月基于 Motorola 56367 定点 DSP 的 DRA 专业解码器研制完成，并制造出样机。 3 月首台 DRA 多声道数字音频实时解码器 DRA-MD1 诞生。 4 月广播电影电视总局广播电视规划院对 DRA 音频编解码技术的效果进行了主观和客观评测。对广晟数码数字音频编码软件和解码硬件的测试结论为：“达到了 EBU （欧洲广播联盟）定义的“不能识别损伤的”音频质量。” 9 月 30 日由信息产业部科技司

iOS - 使用音乐的背景播放功能,使用MediaPlayer框架播放影片(Swift)

阅读更多关于 iOS - 使用音乐的背景播放功能,使用MediaPlayer框架播放影片(Swift)

1. 使用音乐的背景播放功能 (1) 导入音频播放框架 import AVFoundation (2) 创建音频播放对象 //初始化音频播放器对象,并将音频播放对象,作为视图控制器类的属相。 var audioPlayer:AVAudioPlayer = AVAudioPlayer() override func viewDidLoad() { super.viewDidLoad() // Do any additional setup after loading the view, typically from a nib. //获得音频会话对象,该对象属于单例模式,也就是说不用开发者而自行实例化.这个类在各种音频环境中,起着重要作用 let session = AVAudioSession.sharedInstance() //在音频播放前,首先创建一个异常捕捉语句 do { //启动音频会话管理,此时会阻断后台音乐的播放. try session.setActive(true) //设置音频操作类别,表示该应用仅支持音频的播放. try session.setCategory(AVAudioSessionCategoryPlayback) //设置应用程序支持接受远程控制事件 UIApplication.sharedApplication()

【推荐系统】【论文阅读笔记】Improving Content-based and Hybrid Music Recommendation using Deep Learning

阅读更多关于【推荐系统】【论文阅读笔记】Improving Content-based and Hybrid Music Recommendation using Deep Learning

原文作者：Xinxi Wang and Ye Wang 在歌曲相关因素中，音乐音频内容是非常重要的。在大多数情况下，我们喜欢/不喜欢一首歌，这是因为它的音频内容具有一些特征，例如人声、旋律、节奏、音色、体裁、乐器或歌词。没有听内容，我们对这首歌的质量几乎一无所知，更不用说我们是否喜欢它了。因为音乐内容在很大程度上决定了我们的偏好，所以内容应该能够为推荐提供良好的预测能力。然而，现有的音乐推荐者对音乐音频内容的依赖往往会产生不尽如人意的推荐效果。它们都遵循两个阶段的方法：提取传统的音频内容特征，如梅尔倒谱系数（MFCC），然后使用这些特征预测用户偏好。然而，传统的音频内容特征不是为音乐推荐或与音乐相关的任务而创建的（例如，MFCC最初用于语音识别）。在发现他们也能描述诸如体裁、音色和旋律等高级音乐概念之后，他们才开始关注音乐推荐。使用这些特性可能会导致推荐性能在以下两个方面下降。1.由于所谓的语义鸿沟，高层概念无法准确描述。2.即使特征描述是准确的，高级的概念对于用户的音乐偏好也可能不是必需的。因此，传统功能可能无法考虑与音乐推荐相关的信息。我们认为，一种有效的基于内容的音乐推荐方法的关键是一套好的内容特征。人工获取这样的特征是可能的，但费时费力。一个更好的方法是将现有的两阶段方法结合到一个统一的自动化过程中：自动和直接从音频内容中学习特征，以最大限度地提高推荐性能

Au的入门学习

阅读更多关于 Au的入门学习

Au作为专业音频处理软件，一般用于音频录制，剪辑，后期处理等，最初学习au的动力来自于使用pr时的音频需求。在pr中对音频的修改可以直接导入au中进行操作，非常方便。首先安装完au的第一步，ctrl+shift+k打开首选项，调节常规设置，个人推荐在数据界面将质量调为百分之百，在媒体与磁盘缓存界面调整缓存位置，看个人爱好，保存峰值文件处打钩，如果有外接声卡则在音频硬件处调整设备类型，主控时钟和默认输出相同。第二步，处理单个音频的话直接在波形中处理，如果需要多个音频文件混音，则选择多轨。由于个人对音频处理不需要太专业的部分，常用的功能就是剪辑，降噪，淡入淡出等。比较重要的降噪，第一种噪音:持续背景噪音（整个音频环境下普遍持续存在噪音），首先选择噪音部分，右键或者shift+p捕捉噪声样本，随后ctrl+shift+p调出效果-降噪界面，点击选择完整文件，根据实际噪音情况调整，降噪百分比和降噪db幅度，随后点击应用即可。第二种噪音:瞬时噪音（如突然的微信提示音，物品撞击声等）shift+d调出频谱展示器，找到噪音部分，使用框选工具d或者探索工具e，在频谱中选中噪音部分，直接backspace键或del键删除，或右右键点击删除。第二种方法:同样选中噪音区域，ctrl+u自动修复选区，如果一次效果不好可多次重复。来源： CSDN 作者： 17期马骏链接： https:/

蓝牙音乐AudioTrack Session ID的获取

阅读更多关于蓝牙音乐AudioTrack Session ID的获取

当今这个音视频无处不在的时代，音频跟踪会话ID（AudioTrack Session ID）是个很重要的参数，可以用来实现音频相关的一些特效。接下来的内容我们就探究如何在安卓蓝牙系统中获取该id。熟悉蓝牙音乐播放流程的同学都了解蓝牙音乐AVDTP的控制流与音频流以及AVRCP是如何作用的，以如下的交互图简单介绍下： AVDTP连接阶段分为四步： 1、发现对端支持的编码方式有哪几种 2、获取每种编码方式的参数 3、双方协商确定一个最优的编码方式 4、建立该编码方式的AVDTP连接音频播放过程中只要创建的audiotrack不变则对应的session id就会保持不变。播放蓝牙音乐也是这样。那蓝牙音乐对应的audiotrack session id从哪儿获取呢？创建audiotrack都会生成对应的session id，那问题就简单多了，蓝牙音乐播放过程中audiotrack在哪儿被创建的？蓝牙音乐播放分为source、sink两端，source一般为音频流输出端，sink接收音频流方。这篇文章主要是已sink端来讲解蓝牙音频播放流程。Sink方（蓝牙耳机、音响、车载等）的蓝牙芯片接收到音频流后通过HCI送到蓝牙协议栈，在协议栈中直接通过audio track送入安卓音频系统播放音乐。结合蓝牙协议栈的代码可以快速找到audio track的创建处为

#Linux ALSA#ALSA各模块简介

阅读更多关于 #Linux ALSA#ALSA各模块简介

1.Native ALSA Application：tinyplay/tinycap/tinymix,此三种用户程序直接调用alsa用户库接口来实现放音，录音，控制功能； 2.ALSA library API：alsa用户库接口，e.g.tinyalsa，alsa-lib； 3.alsa core：alsa核心层；向上提供逻辑设备系统调用，e.g. PCM ;向下驱动硬件设备 e.g. machine codec； 4.asoc core：asoc是建立在标准alsa core基础上，为更好的支持嵌入式系统以及应用于移动设备之音频codec的一套软件体系； 5.Hardware driver：音频硬件设备驱动；囊括三部分——machine，platform，codec； 5.1 platform 特指代某 SoC 平台的音频模块，e.g. qcom；这里platform又可分为两部分： 5.1.1 cpu dai 在嵌入式系统中通常是指soc支持I2S/PCM总线控制器，其主要功能则是把音频数据从I2S tx FIFO搬运到codec（此仅限回放声音的情形，若录制声音则为将音频数据从codec搬运到I2S tx FIFO）；cpu_dai 通过 snd_soc_register_dai() 来注册。可注意：dai 是 Digital Audio Interface 的简称，分为

音视频编码技术与格式大全

阅读更多关于音视频编码技术与格式大全

一、常见视频格式中采用的技术　　当PC开始拥有FPU（浮点处理器）后，PC如何处理多媒体信息的问题也被摆上台面。无数专家开始为音频视频编码技术运用在PC上开始忙碌了，视频技术也因此得到了飞快的进步。　　1、无声时代的FLC 　　FLC、FLI是Autodesk开发的一种视频格式，仅仅支持256色，但支持色彩抖动技术，因此在很多情况下很真彩视频区别不是很大，不支持音频信号，现在看来这种格式已经毫无用处，但在没有真彩显卡没有声卡的DOS时代确实是最好的也是唯一的选择。最重要的是，Autodesk的全系列的动画制作软件都提供了对这种格式的支持，包括著名的3D Studio X，因此这种格式代表了一个时代的视频编码水平。直到今日，仍旧有不少视频编辑软件可以读取和生成这种格式。但毕竟廉颇老矣，这种格式已经被无情的淘汰。　　2、载歌载舞的AVI 　　AVI--Audio Video Interleave，即音频视频交叉存取格式。1992年初Microsoft公司推出了AVI技术及其应用软件VFW（Video for Windows）。在AVI文件中，运动图像和伴音数据是以交织的方式存储，并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等。AVI文件用的是AVI

Mac电脑没声音了怎么办？苹果电脑没声音的解决方法

阅读更多关于 Mac电脑没声音了怎么办？苹果电脑没声音的解决方法

在使用Mac的过程中，偶尔会出现电脑没声音？发出奇怪的声音？连接外部音频设备出问题等音频故障，遇到这种情况该怎么办呢？小编有妙招！检查音量首先检查Mac是否被静音，按住F12快捷键或滑动菜单栏声音滑块调节音量。同时检查Mac音频端口有没有连接耳机或其他音频设备。检查音频设置若连接耳机或其他设备，则必须检查输入/输出音频设备设置。有时也会由于设置错误导致驱动程序出错。启动系统偏好设置，选择声音，进入输出选项卡，确定你选择了正确的音频输出设备。以防你错误连接到蓝牙设备，而非通过Mac的扬声器播放。想要更好的检查输出设备，我们可以借助音频 MIDI 设置工具（直接用系统搜索工具搜索）。在内建输出中可以设置音频声道、位深度、格式、速率。调整后退出应用，然后尝试再次播放音频。重置核心音频若核心音频coreaudiod出现问题，也会导致系统声音停止工作或失真，这时可以尝试重启coreaudiod。打开活动监视器，搜索coreaudiod，选中后单击强制退出，coreaudiod退出后会自动重启。若它没有重启（这种情况极少发生），请关闭并重启Mac。若Mac不能重新启动，也可以使用launchctl命令启动守护程序并重新初始化coreaudiod。 sudo launchctl start com.apple.audio.coreaudiod 第三方音频应用问题

浅谈网络语音技术

阅读更多关于浅谈网络语音技术

浅谈网络语音技术当我们使用像Skype、QQ这样的工具和朋友流畅地进行语音视频聊天时，我们可曾想过其背后有哪些强大的技术在支撑？本文将对网络语音通话所使用到的技术做一些简单的介绍，算是管中窥豹吧。一.概念模型网络语音通话通常是双向的，就模型层面来说，这个双向是对称的。为了简单起见，我们讨论一个方向的通道就可以了。一方说话，另一方则听到声音。看似简单而迅捷，但是其背后的流程却是相当复杂的。我们将其经过的各个主要环节简化成下图所示的概念模型：这是一个最基础的模型，由五个重要的环节构成：采集、编码、传送、解码、播放。 1.语音采集语音采集指的是从麦克风采集音频数据，即声音样本转换成数字信号。其涉及到几个重要的参数：采样频率、采样位数、声道数。简单的来说：采样频率，就是在1秒内进行采集动作的次数；采样位数，就是每次采集动作得到的数据长度。而一个音频帧的大小就等于：（采样频率×采样位数×声道数×时间）/8。通常一个采样帧的时长为10ms，即每10ms的数据构成一个音频帧。假设：采样率16k、采样位数16bit、声道数1，那么一个10ms的音频帧的大小为：（16000*16*1*0.01）/8 = 320 字节。计算式中的0.01为秒，即10ms。 2.编码假设我们将采集到的音频帧不经过编码，而直接发送，那么我们可以计算其所需要的带宽要求，仍以上例：320*100

订阅音频应用