基于机器人听觉的声源定位策略

吕晓玲张明路

河北工业大学机械工程学院，天津300130

摘要：针对机器人听觉定位，提出了五个传声器阵列作为机器人的耳朵，其中四个传声器组成的平面阵确定声源空间位置，另外一个传声器辅助实现声源位于机器人前后方的判断，并在改进的时延算法上实现对声源的空间定位。系统在室内环境下测试，实验结果证明在混响环境下机器人可以实现空间声源定位，该方法具有实时实现的有效性和应用性。

关键词：机器人听觉，传声器阵列，声源定位，时延

随着各国对国家安全、社会治安等公共

1 机器人系统事业的高度重视，以防暴、反恐、消防灭火、

排险救援等为特征的危险作业移动机器人本文研究对象是多感官履带式移动机的需求日益凸现[1]。如何实现移动机器人对器人，多感官履带式移动机器人由履带式移可疑声源的准确判断，在特殊环境中获取目动机器人本体和四自由度拟人机器人头部标声源方向为打击武器进行自动瞄准等工系统组合而成。机器人具有立体视觉、听觉作就显得很重要，对于保障人民生命财产安及嗅觉感官功能，且都集中于头部系统中。全，促进经济社会的和谐发展具有重大现实机器人听觉由5个传声器组成的阵列构成，意义。其中四个传声器（M1~ M4）布装在机器人拟

听觉是人类和机器人识别周围环境的人头部前面正方形四个顶点位置上，M5布很重要的感知能力，尽管听觉定位精度比视装在机器人头部的后侧和M4相对于机器人觉定位精度低很多，但是听觉有很多其他感头部水平旋转中心轴对称，如图1所示。官无可比拟的特性。听觉定位是全向性的，

传声器阵列可以接受空间中的任何方向的传声器声音。机器人依靠听觉可以工作在黑暗环境

阵列

中或者光线很暗的环境中定位声源，这些依

靠视觉是不能实现的。目前,此类研究大部分限于理论研究或是针对声源定位过程中的部分子问题开展相关的科学研究。现有的传声器阵列与机器人结合的较少，并且具有很大的局限性，例

*基金项目：国家高技术研究发展计划（863计划）“如，YukiT等人提出一种用128个传声器组

统”（项目编号：2006AA04Z221）

成的阵列进行声源定位的方法[2]，其传声器

数量太多，结构复杂，用在机器人的头部既不实际也没必要；又如，K. Nakadai等人提出的一种用两个传声器作为机器人的左右耳的声源定位的方法[3]，只有两个传声器组成的线阵不能进行声源的空间定位，不能满

足实际需要。

针对上述问题，本文提出了融合五元传图1 多感官履带式移动机器人声器阵列组成的机器人耳朵和改进时延算法的声源定位略策。

2 基于机器人听觉的声源定位策略

2.1 麦克风阵列的选择

研究表明，由N个传声器组成的阵列可以得到N-1个时延[4-7]，因此确定空间中的目标位置至少需要4个传声器。所以本文选定由5个传声器组成的阵列作为声源的定位阵列，其中4个传声器组成的平面阵用来确定目标在空间中的位置，另外一个传声器可以辅助判断目标在机器人的前方还是后方。这样既可以实现空间定位，完成任务，计算量也不大，对于实现实时的定位有很大的帮助。

2.2 声源定位方法

声源定位有很多种算法，考虑到系统对

实时实现要求较高，选择基于时延的定位方法[8-9]。

该方法分为时延估计和定位两大步骤，其中各传声器对之间的声源信号到达时延估计的精度是关系到下阶段声源定位精确与否的关键因素。

x1(n)和x2(n)为两个传声器的接收信号，x1(n)和x2(n)的相关函数为Rx1x2(τ),Rx1x2(τ)的最大值对应的τ就是两

个传声器间的时延τ12。通过求两信号之间的互功率谱，并在频域内给予一定的加权，来对信号和噪声进行白化处理，增强信号中信噪比较高的频率成分，从而抑制噪声的影响，再反变换到时域，得到两信号之间的广义互相关函数。

由互相关函数与互功率谱的关系[10]可得：

Rπ*-jωτ

x1x2(τ)=⎰0X1(ω)X2

(ω)e

dω

=⎰π-jωτ

0G12(ω)e

dω （1）其中X1(ω)和X2(ω)分别为x1(t)和

x2(t)的傅立叶变换，G12(ω)为两传声器接

收信号的互功率谱。

两传声器信号的广义互相关函数可以表示为：

Rgτ)=⎰πψ-jωτ

x1x2(012(ω)G12(ω)e

dω （2）

其中ψ12(ω)为频域加权函数，广义相关函

数的峰值对应着时延τ。

针对不同的噪声和反射情况，可以选择不同的加权函数，使Rx1x2(τ)具有比较尖锐的峰值。我们选择互功率谱相位的加权函数为：

ψ112(ω)=

G12(ω)

（3）

式（2）变为下式：

Rgx1x2(τ)=a1a2δ(τ-τ12)

（4）

上式表明，该加权函数起到了很好的锐化作用，而且经过加权的互功率谱近似于单位冲激响应的表达式，因此在混响比较弱时，该方法本身就对混响有一定的抑制作用。但是在实际环境中，由于噪声的存在以及噪声本身的相关性，噪声互功率谱不为零，而且房间还存在比较强的混响，这都会大大影响了实验结果。

本文提出针对上述问题的改进。首先针对噪声互功率谱不为零的情况，在实际中可在无音段估计出噪声互功率谱，然后从信号的互功率谱中减去噪声谱，从而减弱噪声的影响。另外对加权函数加以修正，乘上一个加权因子γ则式（3）为：

ψ12(ω)=

γG12(ω)

（5）

使γG12(ω)为房间混响的直接部分，这样就可以起到比较好的抗混响效果。加权

因子γ可以根据房间的混响时间[11-12]

估算出混响直接部分在整个功率谱中的比例而确定。

2.3 定位实现

本文中声源空间位置计算只用到机器人前面4个麦克风，传声器5用来辅助判断声源在机器人的前方还是后方，建立传感器阵列和声源的位置关系坐标系如图2。

图2 传声器阵列坐标系

在图2中，S为声源，M1- M4表示传声

器，θ代表方位角, φ代表仰角, L代表传声

器阵列的正方形边长，本文中L为0.2m。经计算可分别得到如下三个参数的表达式： tgφ=

τ-τ2τ31+τ21-τ41

（6） cosθ=C2L

(2τ31-τ41+τ21)2+(τ41-τ21)2 （7） R=C⋅(2τ-τ+τ)(τ-τ)

4⋅τ41+τ21

（8）公式（8）中的R表示声源和传声器阵

列中心的距离，C为声速。C的取值一般情况下取340m/s，τ

ij表示传声器阵列中任意两个传声器之间的时间延迟。从上述公式中可以看出只要求得M2～M4相对于传声器M1的时间延迟就可以得到声源的位置。 2.4 判断前后方位

声源在机器人的前方和后方对称的位置时，传声器平面阵列得到的定位结果是一样的，造成前后方判断的困扰，传声器M4和M5相对于头部水平旋转关节对称，所以本文定位系统通过计算传声器4和5的短时能量实现声源在机器人的前后方判定。

声音信号的短时能量E定义为：

N-1

Ex2

n=∑n(m)

m=0 （9）

其中n表示第n帧分帧加窗的声音信号，N为帧长。En是一个度量声音信号幅

度值变化的函数。若是E(M4)> E(M5),则声源位于机器人的前方；若是E(M4)

3 实验

实验是在一间普通的实验室进行的，周围墙壁未经任何处理。主要噪声影响为电脑风扇声、日光灯的交流声以及回响等。静止状态下机器人如图3所示。在上述实验情况下做了5组实验，每组实验做3次，声源为人拍手声，声源和机器人传声器阵列中心在一条直线上，声源距离传声器阵列中心距离为1-1.5m,人的方位角分别为-67︒，-18︒，0︒，18︒，67︒。

实验时，首先机器人处于工作空间中，

机器人“耳朵＂——即传声器阵列处于监听

状——监听和判断是否有声音信号。如果没

有检测到声音信号，就把环境噪声信号记录

下来，并求得两路噪声信号的互功率谱；“耳朵”一直处于监听状态，如果有声音信号，

求得声音信号的互功率谱，并在其中减去原

来环境噪声的互功率谱，这样可以得到明显的声源信号信息。声源信号信息进入听觉系

统进行定位。人在机器人前方拍手，机器人听觉系统监听到声音、判断声源方位并转动机器人头部对准声源。实验结果如图4~图8所示。实验数据

见表

图3 静止状态下的机器人

图4 声源18︒时定位结果

图5 声源67︒定位结果

图7 声源-18︒定位结果

图6 声源0︒定位结果

表1 定位实验结果

实验

实际方实际距

方位均位角θ 0 18︒ 67︒ -18︒ -67︒

离R ˆ

值θ 0.3︒ 17.3

1.5m 1.5m 1m 1.3m 1.3m

图8 声源-67︒定位结果

实验方位角均值φ 0.7︒ 0

1.3︒ 0

-2.3︒ 0

1.7︒ 0

2.7︒

实验距离均值

实际俯仰角φ

ˆ R

1.36m

1.41m

0.88m

1.22m

1.16m

︒ ︒ ︒ ︒ ︒︒

68.3

︒

-18.7︒ -65.3︒

从本系统的实验得出的结果中可以看出，当声源的角度很小时，直达信号往往占主导地位，角度误差都较小，而当夹角增大时，误差会变大，得到的定位结果误差相对较大。人拍手时手的晃动，环境突发噪声的影响（例如开门声）以及计算带来的误差都是定位结果存在一定误差的原因。从实验结

果可以看出，估计的角度误差基本上在3度

以内，可以在实际的声源定位系统中应用。

4结论

本文机器人听觉定位策略融合了新的传声器阵列组成的机器人耳朵和改进的声源定位方法，系统在室内环境下测试，实验结果证明在混响环境下机器人可以空间定

位声源，实验达到预期效果。结果证明该方法具有实时实现的有效性，有实际应用的价值。

参考文献

[1]谢涛,徐建峰. 仿人机器人的研究历史、现状及展望[J]. 机器人，2002，24（4）：361-374 [2]Yuki T, Satoshi K, Hiroshi M, Real-Time 2 Dimensional Sound Source Localization by 128-Channel Huge Microphone Array，Proceedings of the 2004 IEEE International Workshop on Robot and Human Interactive Communication, 2004:65-70

[3]K. Nakadai, H. G. Okuno, and H. Kitano, sound source localization and separation for robot audition, Proceedings IEEE International Conference on Spoken Language Processing, 2002:193-196

[4] 崔玮玮，曹志刚.魏建强.声源定位中的时延估计技术.数据采集与处理，2007, 22(1) :91-99

[5] 严素清,黄冰. 基于广义互相关的时延估计算法研究[J]. 信息技术, 2005,(12)

[6]王宏涛, 孟令军. 利用互相关法实现无线传感网络节点自定位[J], 传感技术学报,2009,22(8): 1150-1153.

[7]杨亦春, 程翔, 陈庆生. 提高时延估计精度的方法研究[J]. 南京理工大学学报, 1999, (06)

[8] 许可喜.被动声探测若干关键技术研究[D].南京: 南京理工大学，2005

[9]Ben Rudzyn, Waleed Kadous, Claude Sammut, Real time robot audition system incorporating both 3D sound source localisation and voice characterisation, International Conference on Robotics and Automation, Roma, Italy, 2007:4733-4738 [10] Kazuhiro Nakadai, Epipolar Geometry Based Sound Localization and Extraction for Humanoid Audition. Pceedings 2003 IEEE/RSJ Interational Conference on Intelligent Robots and Systems, 2003:90-100 [11] Y. Matsusaka, S. Fujie, T. Kobayashi. Modeling of conversational strategy for the robot participating in the group conversation. In 7th European Conference on Speech Communication and Technology (Eurospeech 2001), Aalborg, Denmark, 2001, pp:2173-2176

[12] J.M. Valin, F. Michaud, and J. Rouat. Robust sound source localization using a microphone array on a mobile robot. In Pproceedings of the IEEE/IRJ Intl. Conference on Intelligent Robots and Systems,2003: 1228-1233

吕晓玲（1981－），女，博士生。研究领域为：机器人听觉。

张明路（1964－），男，教授，博士生导师。研究领域为：机器人学，神经网络智能控制。

基于机器人听觉的声源定位策略

相关内容

热门内容