手语研究的方向与现状

liyf 发表于 2014-10-5 13:03:28

手语研究的方向与现状

摘要：介绍国内外手语研究的主要方向及研究现状，手语识别的各种方法、手语合成的组成部分、手语网络通信的实现技术以及手的运动约束问题。关键词：人体语言手语识别合成通信运动约束
手语是聋哑人使用的语言。它是由手形动作辅之以表情姿势而构成的比较稳定的表达系统，是一种靠动作/视觉进行交际的特殊语言。
人类交互往往声情并茂，除了采用自然语言（口语、书面语言）外，人体语言（表情、体势、手势）也是人类交互的基本方式之一。与人类交互相比，人机交互就呆板得多，因而研究人体语言理解，即人体语言的感知，及人体语言与自然语言的信息融合对于提高计算机的人类语言理解水平和加强人机接口的可实用性的极有意义的。手语是人体语言的一个非常重要的组成部分，它是包含信息量最多的一种人体语言，它与语言及书面语等自然语言的表达能力相同，因而人机交互方面，手语完全可以作为一种手段，而且具有很强的视觉效果，它生动、形象、直观。
手语的研究不仅有助于改善和提高聋哑人的生活学习和工作条件，为他们供更好的服务。同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。另外，手语的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此，手语的研究是一个非常有意义的课题。这里将结合国内外手语研究的相关方向，对手语的识别、手语的合成、手语的网络通信、手的运动约束这几方面作一下综述。
1 手语的识别
手语的识别不但具有深远的研究意义，而且具有广阔的实际应用前景，至少表现在以下几个方面：（1）能够使得聋哑人，尤其是使得文件程度比较低的聋哑人，使用手语和正常人交流；（2）从认知科学的角度，研究人的视觉语言理解的机制，提高计算机对人类语言的理解水平；（3）利用手势控制VR中的智能化；（4）机器人的示范学习；（5）虚拟现实系统中的多模式接口等。
从手语输入设备来看，手语识别系统主要分为基于数据手套的识别和基于视觉（图像）的手语识别系统。基于数据手套的手语识别系统，是利用数据手套和位置跟踪测量手势在空间运动的轨迹和时序信息。这种方法的优点是系统的识别率高。缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器，并且输入设备比较昂贵。利用数据手套等典型传感设备的方法，台湾大学的Liang等人利用单个VPL数据手套作为手语输入设备，可识别台湾手语课本中的250个基本词条，识别率为90.5%。CMU的Christopher Lee和Xu在1995年完成了一个操纵机器人的手势控制系统。Kadous用Power Gloves作为手语输入设备，识别有95个孤立词构成的词汇集，正确率为80%。基于视觉的手势识别是利用摄像机采集手势信息，并进行识别。该方法的优点是输入设备比较便宜，但识别率比较底，实时性较差，特别是很难用于大词汇量的手语录的识别。在基于视觉的方法方面，具有代表性的研究成果包括：1991年富士通实验室完成了对46个手语符号的识别工作。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入，可识别7种手势。Starner等在对美国手语中带有词性的40个词汇随机组成短句子识别率达到99.2%。Grobel和Assam从视频录像中是取特征，采用HMM技术识别262个孤立词，正确率为91.3%。此外，Vogler与Metaxas将两种方法结合用于美国手语识别，交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备，完成了53个孤立词的识别，识别率为89.9%。
从识别技术来看，以往手语识别系统主要采用基于人工神经网络（ANN）及基于隐Markov模型（HMM）等方法。神经网络方法具有分类特性及抗干扰性，然而由于其处理时间序列的能力不强，目前广泛用于静态手势的识别。著名的Fels的GloveTalk系统采用神经网络方法作为识别技术。对于分析区间内的手语信号，通常采取HMM方法进行模型化。HMM是众周知并广泛使用的统计方法，一般拓扑结构下的HMM具有非常强的描述手语信号的时空变化能力，在动态手势识别领域一直占有主导地址，如卡内基·梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采用HMM作为系统的识别技术。另外，Grobel与Assam利用HMM识别由戴有色手套的用户通过摄像机输入的262个孤立手语词，正确率为91.3%。然而正是由于HMM拓扑结构的一般性，导致这种模型在分析手语信号时过于复杂，使得HMM训练和识别计算量过大。尤其是在连续的HMM中，由于需要计算大量的状态概率密度，需要估计的参数个数较多，使得训练及识别的速度相对较慢。因而以往手语识别系统所采用的HMM一般为离散HMM。
在我国，哈尔滨工业大学的吴江琴、高文等给出了ANN与HMM的混合方法作为手语的训练识别方法，以增加识别方法的分类特性和减少模型的估计参数的个数。将ANN-HMM混合方法应用于有18个传感器的CyberGlove型号数据手套的中国手语识别系统中，孤立词识别率为90%，简单语句级识别率为92%。接下来高文等又选取Cyberglove型号数据手套作为手语输入设备，并采用了DGMM（dynamicGaussianmixturemodel）作为系统的识别技术，即利用一个随时间变化的具有M个分量的混合GaussianN-元混合密度来模型化手语信号，可识别中国手语字典中274个词条，识别率为98.2%。与基于HMM的识别系统比较，这种模型的识别精度与HMM模型的识别精度相当，其训练和识别速度比HMM的训练与识别速度有明显的改善。他们为了进一步提高识别速度，识别模块中选取了多层识别器，可识别中国手语字典中的274个词条，识别率为97.4%。与基于单个DGMM的识别系统比较，这种模型的识别精度与单个DGMM模型的识别精度基本相同，但其识别速度比单个DGMM的识别速度有明显的提高。2000年在国际上他们首次实现了5000词以上的连续中国手语识别系统。另外，清华大学祝远新、徐光等给出了一种基于视觉的动态孤立手势识别技术，借助于图像运动的变阶参数模型和鲁棒回归分析，提出一种基于运动分割的图像运动估计方法。基于图像运动参数，构造了两种表现变化模型分别作为手势的表现特征，利用最大最小优化算法来创建手势参考模板，并利用基于模板的分类技术进行识别。对12种手势的识别率超过90%。在进一步研究中，他们又给出了有关连续动态手势的识别，融合手势运动信息和皮肤颜色信息，进行复杂背景下的手势分割；通过结合手势的时序信息、运动表现及形状表现，提出动态手势的时空表现模型，并提出基于颜色、运行以及形状等多模式信息的分层融合策略抽取时空表观模型的参数。最后，提出动态时空规整算法用于手势识别。对12种手势，平均识别率高达97%。
尽管已经实现了一些手语识别系统，但中国手语识别仍然面临许多挑占性课题，如手势不变特征的提取、手势之间的过度模型、手语识别的最小识别基于、自动分割识别基元、词汇量可扩展的识别方法、手语识别的辅助信息、非特定人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法等。
2 手语的合成
手语的合成是使聋哑人理解正常语言表达的最有效手段，在手语合成中涉及以下几个方面的问题：本文输入部分、文本切分部分、文本的分析与手语码转换、手语库的建立与基于手语词的手语合成和手语的显示。
文本输入部分的功能是编辑输入汉语句子。文本的切分将句子分成词，标点符合单独成词。系统的分词过程首先采用最大匹配发切分，然后利用第一步分词结果通过查找词条的歧义标志位调用词规则，进而进行歧义校正。文本分析与手语码转换是手语合成的重要部分。虽然中国手语是参考汉语制定的，但是两种语言的差别主要体现在四个方面：语言表达形态、基本词汇、句子结构和构词方法。在语言表达形态上：汉语是靠语音/听觉交际的有声语言。中国手语是一种靠动作/视觉交际的可视化语言。在基本词汇上：汉语的词汇大约有近五万多个字组成，总的词汇量可达十万多个。中国手语的词汇仅由3330个手势语组成。中国手语的手势词语与汉语的词语不完全存在一一对应的关系。在句子的语法结构上：手语句子与汉语句子的词序有所不同，此外还省略了日常语言的某些词如量词。因此从汉语转换到中国手语，主要解决的基本词汇上的差别，同时考虑部分词汇的差别。手语词库记录了每个手语词的手语运动信息，是手语合成的重要基础。建立手语词库不仅工作量大，而且其质量也直接影响合成手语的结果。目前建立手语词库的方法有两种：运动跟踪方法和手工编辑方法。也有人综合使用这两种方式。运动跟踪的方法是对腕关节及各手指关节的运动由数据手套获取，肩关节与肘关节的运动由位置跟踪传感器获取。而手工的方法是通过手工实验来获取手势的参数。手语是一种可视语言，合成的手语只有显示出来，观察者才能“读”取手语的信息与意义。手语的合成与显示的实现的方法是：在VRML中有一部分是专门用于描述三维人体模型H-Anim标准，根据此标准对虚拟人的定义，一个虚人有47关节96个自由度，只要确定这96个自由度的角度值，应用运动学的方法和计算机图形学的方法，就可以计算出虚拟人每个肢体的位置和方向，由此确定虚拟人的一个姿态。一个手语运动是一个人体手势的序列，按照预定的时间间隔连续显示一个手语运动中的每一个手势，既可以生成对应的手语运动。
3 手语的网络通讯
当今，网络通讯已经成为一种重要的通讯手段。研究哑语通讯，使聋哑人更好地融入网络社会，感受科技的进步，更好地为他们服务并且方便了他们的生活。而手语作为一种动作语言，从广义上讲，它的应用不仅仅局限于聋哑人之间，聋哑人与非聋哑人之间，以及异语种间健常人的交流都可能应用到动作语言。从这个意义上，研究哑语的表达与通讯，具有更加广泛的社会意义和实际应用前景。
更实现手语的网络通讯，必须采用一种恰当的技术，它既能完成手语图像动画表示，它既能完成手语图像的三维动画表示，产生的数据、文件应该尽可能地短小，且便于压缩，以利于网络传输，提高网络传输速度，避免网络拥塞，实现实时反应。可以使用三维动画技术来实现手语动画，但一般的三维动画技术形成的图像虽然可能满足生动逼真的要求，却不适合网络应用。因为它们用于图像和动画的文件格式是基于像素的，大小和行为都是固定的，为了得到特体的三维印象，至少需要两幅图解，这使传输量巨大且不能实现交互。同时，基于HTTP、HTML标准的WWW只能表示和传递二维信息，不能满足对三维环境和三维显像具有特定要求的应用需求。鉴于这种应用的特殊要求，提出采用VRML技术。VRML（Virtual Reality Modeling Language）是一种可以在WWW上操作的三维图形可视化工具，VRML 2.0发布于1996年8月，它能够灵活有效的方式，将二维、三维图形和动画、影片、声响和音乐等多种效果调和在一起，形成一个综合性的单一媒体，在环球网上创建动态世界。VRML本身不是一种传统的编程语言，它是一种建模语言，有它自己的文件格式，人们可以用它描述三维场景。它不但能满足图像质量的要求，而且存储和传输的只是物理的三维坐标，图像本身是在本地生成的，这就大大减少了网络传输量，也便于进行交互操作。同时，使用VRML技术生成的文件格式是ASCII码，能被有效地压缩，这就进一步减轻了网络压力，提高了传输效率，能够实现手语图像在网络上高速传输。
另外，日本北海道大学的青木由直教授是研究手语通讯的倡导者，他通过建立一个不同语言的手语翻译字典在Internet实现了日语和韩语的手语的聊天系统，进一步又研究了日本与中国的手语变换，手语手成的二维及三维动画，以及带有面部表情和嘴唇形状的日语和韩语的手语聊天系统等。
4 手的运动约束
人手的组成是一个非常复杂的结构。手是由骨头，连接骨头的韧带，作为拉力动力服务的肌肉，运动时连接肌肉与骨头的腱，以及覆盖着保护的软组织和皮肤。骨头通过关节连接起来并且不能改变大小，肌肉产生扭矩和关节通过拉力运动都存在一块或更多的肌肉群为其服务。因此，手的运动极其复杂的。由于真实手的生理特点，手的运动受到一些限制和约束。分析手的运动约束，就可以更好研究虚拟三维人手的运动。这样一来就可以在有关手的动画片中避免一些不真实的动作，使其更加拟人化。
手的运动约束主要体现在关节的运动的约束上。有以下四种情况：（1）关节角度限制和运动类型的约束。第二到第五手指的第三关节的运动仅能弯圣诞节/伸直或一方向运动，并且第一和第二关节也仅能在同一方向上弯曲/伸真。因此，第二到第五手指的四个手指在同一平面。（2）指骨之间的关节弯曲的约束。对人的手指运动来说，在没有外力作用下，不可能存在第一关节弯曲而第二关节不弯曲的情况。经研究发现，第一关节弯曲的角度大约是第二关节弯曲角度的2/3。（3）掌骨与手之间的弯曲的约束。当第三个关节弯曲时大约角度是90°，而对于第二个手指却少于90°，第三到第五个手指弯曲的角度超过90°。这是因为独立的一个手指的弯曲要受到指状组合型韧带的限制，这样一个手指的弯曲可能导致其它附近的手指的弯曲，同时一个手指的伸展也要受到其手指弯曲的阻止。因此，第三关节弯曲的角度依赖于相邻的手指的弯曲或伸展。（4）掌骨与手之间的关节并拢与分开的约束。自然伸开手掌是，并拢与分开可自由进行，而握成一个拳头时，随着手指弯曲的角度增加分开与并扰的角度减少。第三个手指作用限制并扰与分开。此外手的运动约束还包括腕关节，肘关节以及肩关节等。
手语研究的内容多，范围广，发展很快，是一个很有前景的研究方向。当然，手语研究较为复杂，而且涉及到多学科多领域，许多问题还有待于进一步的探索。

李小路 发表于 2021-7-11 18:20:35

谢谢分享1:D

页: [1]