投稿策略

期刊推荐

杂志分类

首页学术杂志科普订阅 SCI期刊投稿经验期刊咨询文秘服务论著出书出版社

首页 > 精品范文 > 视觉算法培训

视觉算法培训模板(10篇)

时间：2023-12-26 10:29:09

导言：作为写作爱好者，不可错过为您精心挑选的10篇视觉算法培训，它们将为您的写作提供全新的视角，我们衷心期待您的阅读，并希望这些内容能为您提供灵感和参考。

视觉算法培训

篇1

0 引言

随着车流量的增加,大量交通信号设施等因素使驾驶员的视觉环境变得更加复杂。在这种复杂的驾驶环境中,会严重影响驾驶员的视觉,易于发生交通事故。因此,驾驶员需集中驾驶保持对交通环境的认知以及理解处理后的视觉信息。拥堵的车辆和行人形成一个高度复杂的交通环境,为了行车安全，需要提供更多的视觉处理信息。

1、驾驶行为的视觉特性研究

视觉在“人-车-路”系统中起着关键性作用并在很大程度上影响着驾驶员的决定。对驾驶行为进行分析及基于实时视觉分析被称为EAP系统进行研究。此系统针对驾驶员行为进行分析并收集同步实用的可嵌入信息,如眼动方向、轨迹跟踪等。

在此框架中,提出了一个便于分析聚焦面积的司机驾驶情况,凭借区域和兴趣进行自动检测的新方法。目的是跟踪工作自动存储的视频区域(ROI)。这里主要研究基于一个最新研发实时可视化分析工具叫Eye Access Pilot(EAP)系统。这是一种新一代眼动跟踪分析且不受驾驶员干扰的EAP视觉系统。它是基于图像处理和数值算法的实时系统,目的是来确定驾驶员眼角度。为了设计一个能显示驾驶员行为的预测模型,眼动与驾驶员的行为相关性非常重要,能够实现对驾驶员准确变更车道。EAP视觉系统使用图像处理技术,尤其是应用数值算法来确定在多种实际驾驶条件下的驾驶员眼睛方位。

用于单眼视觉场景自动感兴趣区域跟踪已付诸实施。采用固定在驾驶舱的模型具有一定的稳定型,这些模式并不干扰驾驶员行为。应用更具识别能力的模式以增强精确度的研究正在研究中。通过相关和定性不同驾驶员视觉行为的研究,结果通过EAP视觉系统获得 ,尤其是自动ROI跟踪,可量化参数如轨道与视知觉,被认为是认知模型的主要输入。

2、视觉-眼动系统在交通方面的应用

2.1 使交通信息传递更准确

一些学者测量了交通标志在不同速度下的可视性和驾驶员的识别能力，还有人则测试了交通标志的灯光亮度对用户和驾驶员反应时间的影响。目前对交通标志的研究大多还局限在对标志外观尺寸、颜色搭配及设施结构等方面,较少有从驾驶员在驾驶过程中自身特征如眼部运动特征的角度来研究。因此我们注重从驾驶员的角度出发，研究驾驶员在行车过程中的眼部运动特征和视认特性以及两者间的联系，完善交通标志的设计设置，更好地发挥交通标志的作用。

2.2 修正道路口通行能力

目前通常以饱和度法计算交叉口的通行能力,涉及到的饱和流率模型将道路要素,交通要素,周边要素作为其主要影响因素，而忽视了驾驶员因素的影响。事实上，交叉通流率处于不同水平时，驾驶员的视觉特性也会发生变化，当交叉通流率增大时，驾驶员的视觉特性由稳定变为不稳定。应用驾驶员在交叉口不同交通流率水平下的视觉-眼动特性参数，对饱和流率模能力而不是交叉口本身特性所决定的最大通行能力。只有交叉口的设计考虑了驾驶员因素找出趋于驾驶员行车安全的最大通行能力，设计方案的实施效果才能真正得到改善。

3、结语

当前视觉-眼动系统在交通方面的研究还主要是使用国外的仪器设备。随着眼动仪智能化的进一步发展，硬件的小型化、低成本，眼动在交通方面的应用研究将会越来越广泛，眼动研究与对驾驶员的研究结合将会更为紧密。根据驾驶员的视觉特性，在今后的驾驶培训工作中应该重视驾驶人在视觉方面的特性，对目前的驾驶培训工作加以改进，提高驾驶人视觉信息获取能力，从而减少驾驶人发生交通事故的可能性，减少交通安全隐患，提高交通安全。

参考文献：

[1]邓铸.眼动心理学的理论技术及应用研究[J].南京师大学报,社会科学版,2005,1

[2]马勇，郭应时.基于眼动分析的汽车驾驶员视觉搜索模式研究[D].长安大学:交通运输规划与管理,2006,5

篇2

中图分类号： TN27?34； TM417 文献标识码： A 文章编号： 1004?373X（2017）01?0140?05

Abstract： The virtual reality technology developed rapidly， and has been widely used in many fields， but the traditional CAVE system is difficult to promote and popularize due to the large floor space， high cost and difficult installation and adjustment， therefore， the research and development of the portable CAVE system has great significance to the popularization and development of the virtual reality technology. According to the features of the portable CAVE system， the visual optical system was designed， the distortion correction of the projected image and random dot stereogram generation algorithm are studied， and the close range stereoscopic display system based on visual optical system adjustment was built. The subjective evaluation experiment of the visual comfort degree was designed and implemented to explore the relationship between the visual fatigue degree and parallax caused by the close range display. The visual comfort degree of the stereoscopic display system based on visual optical system was assessed. This technology provides a reference foundation for the study of the portable CAVE system， and has a certain practical significance to the development of the virtual reality technology and the study of the stereoscopic visual comfort degree.

Keywords： virtual reality； binocular disparity； close range display； visual comfort degree

0 引言

近年恚虚拟现实技术发展迅速，已经被广泛应用于军事训练、医学实习、娱乐游戏等诸多领域。传统的虚拟现实显示系统虽然技术成熟，但存在一些弊端，因此便携式CAVE系统的概念应运而生。本文搭建了近距立体显示原型系统，通过主观实验，探究了便携式CAVE系统中双目视差的感知深度和单眼聚焦感知深度的差异，以及用户可接受的视觉舒适范围，对基于目视光学系统调节的立体显示系统的视觉舒适度进行评估。

1 立体视觉舒适度的评估方法

1.1 刺激方法的选择

为了避免视差的时间积累效应，实验采用双刺激连续分级法。为控制实验过程中产生的习惯误差，不同视差的立体图按照随机序列交替呈现，且各视差出现的次数相等，整个序列中在前在后的机会相等。

实验的具体刺激方法是：将波纹中心在零视差处的刺激物记为基准图波纹中心在其他位置的刺激物记为待评估图每次施测依次显示三个刺激物，其顺序为或者其目的是强迫用户改变双眼的辐辏角度。每个刺激物显示1.5 s，三个刺激物共显示4.5 s，不同视差的待评估图像随机出现。被试者要独立地进行观测，选出其中一个与其他两个波动方向不同的刺激物，并对该过程的视觉舒适度进行主观评分。同一组图像需随机显示两次以便对评分结果进行一致性检查。

1.2 反应指标的选择

反应指标的选择应依据以下原则：

（1）无害性。所选取的反应指标不应对被试者产生身体伤害，同时不能对被试者产生负面心理影响，阻碍实验的继续进行。

（2）无干扰性。所选取的反应指标在测量过程中不能干扰被试者正常观看图像。

（3）敏感性。所选反应指标应该能够有效地反应出视觉舒适度和视觉疲劳程度。

根据分析，实验主要采用主观评估方法对视觉舒适度进行研究。主观评价方法更适用于对视觉舒适度进行综合评价。舒适度的主观评价方法[1]主要是让被试者在观看立体图像前后根据自身的视觉状况填写问卷，并对问卷的结果进行统计分析。

1.3 主观量表设计方法

主观量是指用户对客观刺激产生的主观度量，又称心理量[2]。在视觉实验中，主观评估方法需对被试者心理量进行测量。主观实验中的心理度量表主要包括：强迫选择度量表、图示度量表和数值度量表。

（1）强迫选择度量表。强迫选择度量表是在主观评估实验时主试者提供一些对立相反的词语让被试者做出选择。强迫选择度量表可以避免被试者受到他人的影响，但可能会使被试者产生抵触情绪，因为大多数人不愿意让自己处于两难选择的境地。

（2）图示度量表。图示度量表好比一个温度计，通常用一条直线表示，直线两端具有相反程度的词语。这条直线可以是水平的，也可以是垂直的。实验中被试者需在直线上做标记，实验后主试者用标尺对标记进行度量，将它转换成数字并进行统计。图示度量表的数据统计工作较为复杂和繁琐，本文实验的数据量巨大，因此图示度量表并不适用。

（3）数值度量表。在数值度量表中，被试者根据事先定义的数字等级进行评定，一般为7级评分或5级评分。在视觉舒适度研究中，可设计度量表如下：非常舒适、舒适、一般、不舒适、非常不舒适。设定等级分值时可以考虑“非常不舒适”为-2分，“不舒适”为-1分，“一般”为0分，“舒适”为1分，“非常舒适”为2分；也可以考虑“非常不舒适”为1分，“不舒适”为2分，“一般”为3分，“舒适”为4分，“非常舒适”为5分。通常情况下不管哪种处理和分析得到的结果是等效的。

本文实验为了使被试者容易理解，考虑一般人的思维模式，将数值度量表等级设计为：“非常舒适”为1分，“舒适”为2分，“一般”为3分，“不舒适”为4分，“极不舒适”为5分。舒适度量表如表1所示。

2 近距立体显示实验系统

2.1 目视光学系统

在便携式CAVE系统中，需要利用目视光学系统调节用户眼睛的调节距离，使人眼不再聚焦于屏幕上。本文实验的目的是研究经过目视光学系统调节后的单眼调节距离和双眼辐辏距离的差异对用户视觉舒适度的影响。实验中需通过改变目视光学系统的屈光度来改变被试者单眼的调节距离。考虑到人眼作为自然界的最高级光学接收系统，具有极强的自我适应和调节能力，因此，本系统选用单片式目镜即可满足基本的成像要求。

2.2 随机点立体图的生成

随机点立体图像对的生成算法如下：

设基面为视差面为

（1）将基面沿纵方向均分成块，左边第一块区域为原始区，其余各块区域均为重复区域。重复间距为d必须小于瞳距。

（2）在原始区内画一个随机点

（3）令得到一新的点如果点在面内，则令如果点不在面内，则令然后在处画出这个新点。

（4）重复上述步骤（2）、步骤（3），直到图面上布满适当密度的随机点为止。

2.3 投影图像的畸变矫正

本系统应采用侧投影的方式，在这种情况下投影图像会产生畸变，应进行投影图像的畸变矫正。进行投影图像的畸变矫正的模型是将真实投影机的投影图像变换为虚拟投影机的投影图像，从而恢复原始图像[5]。其基本过程是：根据透视变换原理，先计算出投影机图像平面到投影平面的单映矩阵，再将投影机图像平面上的所有像素点乘以这个单映矩阵后进行显示，那么屏幕上获得的图像就是校正后的图像。

3 近距立体显示系统的舒适度评估实验

3.1 实验目的及原理

本实验的主要目的是研究基于目视光学系统调节的近距立体显示系统中单眼感知深度（调节距离）和双眼感知深度（辐辏距离）[5]的差异对用户视觉舒适度的影响。

由式（8）可知，当眼睛到屏幕的距离和瞳距一定时，通过改变立体图像对的水平视差可以改变被试者的双眼感知深度（辐辏距离）。

3.2 被试者筛选及培训

筛选工具：数字化立体视觉检查图（立体视觉检查卡、立体视锐度检查卡）、瞳距测量尺。

本实验被试者的筛选流程如下：

第一步：询问被试者眼部的健康状况、有无色盲、是否做过眼部手术、是否有眼部病史，如结膜炎、眼眶骨折等，筛选出眼睛健康且无病史的被试者。

第二步：进行立体视觉测试，检查被试者的双目立体视觉是否正常，排除立体盲。

第三步：对立体视觉正常的被试者进行立体视锐度测试，筛选出立体视锐度小于60 arcmin的被试者。

第四步：对被试者的年龄、性别、视力、瞳距、有无主观实验经验、是否从事立体视觉相关工作等基本信息进行记录[6]。

榱吮苊獗皇哉哂捎诓皇煜な笛榱鞒毯筒僮鞴程而影响实验结果的准确性，实验前需对被试者进行相关培训和模拟练习。

首先，采用无偏向性的语气向被试者讲解实验目的、评价类型、评价等级和时间限制等内容，使被试者正确透彻地理解评判标准，并向被试者展示舒适度明显不同的若干立体图像示例。

然后，让被试者进行模拟练习，模拟练习的内容与正式的实验过程类似。被试者连续观看三组立体图像后，用选择器输入差异图像的编号并对该组立体图像引起的视疲劳程度进行评分，练习时间为3 min。

培训完成后，被试者即可进行正式的主观视觉舒适度评价实验。

3.3 实验过程

实验1：探究近距显示引起的视觉疲劳与视差的关系

被试者佩戴屈光度为0的目视光学系统，在距离屏幕0.6 m的位置观察随机出现的立体图像，并进行视觉任务测试和主观舒适度评分。实验1设定刺激物的中心到被试者的距离（辐辏距离）分别为0.79 m，0.94 m，1.15 m，1.50 m，2.14 m，3.75 m，且随机出现。调节距离为0.6 m。

实验1共进行36组小测试。每组测试会连续出现3幅立体图像，被试者双眼融像[7]后，可看到立体图像出现正弦波纹的效果，被试者需选出一个与其他两个正弦波动方向不同的立体图像，利用选择器将它的编号输入到主机系统中。然后对该组小测试产生的视觉疲劳症状进行主观评分。

时间安排及流程：三种位置（1，2，3）×6种辐辏距离（0.79 m，0.94 m，1.15 m，1.50 m，2.14 m，3.75 m）×2种显示序列（B?Xi?B或Xi?B?Xi）=36次施测，每次施测时间为1 min×36次=36 min。

实验2：探究基于目视光学系统调节的立体视觉舒适度

被试者随机佩戴屈光度分别为的目视光学系统，在距离屏幕0.6 m的位置依次进行3个亚组的实验，实验2中设定刺激物的中心到被试者的距离（辐辏距离）分别为0.79 m，0.94 m，1.15 m，1.50 m，2.14 m，且随机出现。人眼的调节距离分别为1.09 m，1.50 m，2.40 m。

实验2中每个亚组各进行30组小测试。每组测试会连续出现3幅立体图像，被试者双眼融像后，可以看到立体图像出现正弦波纹的效果，被试者需选出一个与其他两个正弦波动方向不同的立体图像，利用选择器将它的编号输入主机中，然后对该组小测试产生的视觉疲劳症状进行主观评分。

时间安排及流程：3种透镜度数×3种位置（1，2，3）×5种辐辏距离（0.79 m，0.94 m，1.15 m，1.50 m，2.14 m）×2种显示序列（B?Xi?B或Xi?B?Xi）=90次施测，每次施测调节时间为1 min×90+15 min间隔休息×2=120 min。

3.4 实验结果分析

（1）近距显示引起的视觉疲劳与视差绝对值[8]呈正相关

将实验1中24个被试者的舒适度主观评分根据不同的辐辏距离进行均值统计。当视差取绝对值时，视差绝对值和视觉舒适度主观评分值经过线性拟合后得到两者的关系模型为：

视差绝对值和视觉舒适度主观评分值的线性相关度为具体见图2。实验结果表明，视觉舒适度的主观评分与视差值呈线性关系，也就是说，对于近距立体显示单眼聚焦和双眼辐辏的不一致性所引起的视觉疲劳与立体视差值成正比关系。单眼聚焦和双眼辐辏的差异越大，产生的视疲劳程度越大，这个结果与大部分研究结果相一致。

（2）主观舒适度与理论值的符合度基本一致

将实验2中24个被试者的视觉舒适度主观评分根据不同的辐辏距离和调节距离进行均值统计，并将每个亚组的理论舒适度和实验获得的主观舒适度进行比较。

目视光学系统的屈光度为0.75D，1.00D，1.25D的实验结果，如图3～图5所示。

实验结果表明，当调节距离一定时，分别为1.09 m，1.5 m，2.4 m，由辐辏距离的改变引起的视疲劳症状与理论计算得到的结果在总趋势上大体一致。在基于目视光学系统调节的立体显示系统中，辐辏距离越小，符合度越好。在相同视差条件下，经过目视光学系统调节后产生更大的不适感。

（3）视差舒适度曲线

将实验2中三个亚组的所有情况的视差值与主观舒适度评分进行综合统计，绘制舒适度曲线如图6所示。

实验结果表明，基于目视光学系统调节的立体显示系统中，视差绝对值越小，视觉舒适度越高。在同等视差条件下，非交叉视差的舒适度优于交叉视差。与传统立体显示设备相比，舒适视域向非交叉视差方向偏移。

4 结论

本文在充分了解双目立体视觉原理、视差型立体显示技术原理、立体显示引起视觉疲劳的根本原因等理论知识的基础上，搭建近距虚拟现实显示系统原型作为实验系统，设计实验研究了基于目视光学系统调节的立体显示系统的视觉舒适度问题。对虚拟现实技术的发展和立体视觉舒适度的研究具有一定的实际意义。

参考文献

[1] 张英静，李素梅，卫津津，等.立体图像质量的主观评价方案[J].光子学报，2012，41（5）：602?607.

[2] KIM D， CHOI S， SOHN K. Visual comfort enhancement for stereoscopic video based on binocular fusion characteristics [J]. IEEE transactions on circuits and systems for video technology， 2013， 23（3）： 482?487.

[3] 王飞，王晨升，刘晓杰.立体显示技术的原理、体视因素和术语[J].工程图学学报，2010（5）：69?73.

[4] 李志永.立体视觉基础[J].现代电影技术，2011（1）：52?55.

[5] 顾郁莲，蔡宣平.计算机立体视图绘制技术[J].国防科技参考，1998，19（1）：63?70.

篇3

1引言

增强现实技术AR（Augmented Reality）是在虚拟现实VR技术（Virtual Reality）的基础上发展起来的典型的交叉学科，具有十分广泛的研究和应用范围，涉及到诸多技术领域，如计算机图形和图像处理、人机界面交互设计、移动计算、计算机网络技术、信号处理技术、以及新型显示器和传感器的设计等。

与传统虚拟现实技术所要达到的完全沉浸的效果不同，AR将计算机生成的虚拟影像实时准确地叠加在实景对象上，从而允许用户使用实景对象与虚拟的影像进行实时无缝交互。AR技术需具有3方面的特点：（1）真实与虚拟图像的结合，（2）实时互动，（3）根据实景物理对象对虚拟影像进行定位。由于增强现实具有将真实场景同虚拟物体加以融合并实现实时交互的特性，能够增强用户对现实环境的理解和认知。

本文首先讨论增强现实系统的总体架构，在此基础上着重论述增强显示的关键技术，即：显示技术、跟踪注册技术、相关方法及其各自的特性，在本文的最后，对增强现实应用和未来趋势概要地作出总结。

2增加现实系统架构

增强现实的整体系统通常由场景采集、跟踪注册、虚拟场景发生器、虚实合成、显示系统和人机交互界面等多个子系统构成，如图1所示。

增强现实系统中，通过处理现实实景的图像建立起实景空间，根据跟踪注册技术确定摄像机的姿态以及虚拟图像的空间定位，虚拟图像与实景图像通过配准排列，合成未虚实融合的增强现实环境，这个环境再输入到显示系统呈现给用户，最后用户通过交互设备与场景环境进行互动。其中，让虚实准确结合的注册步骤非常关键，和最后的显示输出端一起，决定了用户对增强现实环境的最终感知效果，

3增强现实系统的显示技术

增强现实系统的能够利用融合计算机视觉、显示技术、多传感器等技术对真实场景进行扩展和增强，根据Eitoku提出的标准，AR的显示装置的设计应该有4个准则：（1）虚拟信息与现实世界共存；（2）支持协同工作；（3）不给用户增加特殊仪器的负担用户；（4）支持显示自然的三维图像。主要集中在3种类型：透视式的头部佩戴显示器，基于投影显示器和手持式显示器。

3.1头部配戴显示设备

透视式HMDS通过光学或视频技术，使用户看到将虚拟物体与现实实景融合后的场景。这类显示器又可分为光学透视OST（Optical See Through）和视频透视VST（Video See Through）的HMD。

用户通过OST HMD可以直接看到现实实景与虚拟信息叠加融合后的场景。例如Google正式的眼镜项目“Google Glass”，这款眼镜集智能手机、GPS、相机于一身，所有的信息都能即时展现在眼前，比以往的设计头盔式显示器更小更薄的头部佩戴装置。

OST HMD对真实环境几-乎无损显示。用户获得的信息比较可靠全面，对真实环境与虚拟图像融合匹配的精确度要求较高。首先由摄像机摄取实景图像，然后将生成的信息或虚拟影像图像叠加在摄像机视频上，通过显示系统呈现给用户。VST HMD的优点在于较好地处理诸如被遮挡场景、色彩强度等问题，以保持真实场景与虚拟图像的一致性。

3.2投影显示设备

基于投影技术的显示，不需要用户佩戴设备，对用户的体验保持最低限度的侵扰。现有多种投影显示技术，将图像信息直接投射到真实物体的表面，通常是在固定的物体的表面。投影设备同时能够将图像投影到更大范围的环境中。

投影显示设备更加适合室内增强现实环境，生成图像的焦点不随用户视角的改变而改变。投影显示设备与固定的跟踪定位设备相配合，将虚拟物体投影到真实世界中的相应位置。例如大众研究集团与大众服务学院联合开发的投影式增强现实系统，可用于新车型的开发与技术创新的培训。

3.3手持显示设备（Hand Held Device）

手持设备的增强现实应用不需要额外的设备和应用程序的能力，对用户体验没有侵扰，易于携带和高度移动自由度等优点，广泛为社会所接受，因此经常被用于在广告，教育和培训吸引用户注意的重要设备。

Layer App是典型的智能手机上的增强现实应用程序之一。用户在指定的位置，使用手机内置罗盘以确定镜头所指的方向，在手机显示屏上即可显示出场景中的细节信息，当用户平移其设备的摄像头左右，屏幕上会填充不同的景点信息，包括快速通道的可用性，景点的描述等等。

4增强现实系统的跟踪注册技术

跟踪是指跟踪3D空间中的一点或几点的3D坐标与6DOF的姿态信息，注册即是虚拟物体和真实场景在三维空间中位置的一致性，即在空间上的整合，跟踪注册是一个持续的动态过程。跟踪注册是增强现实系统中的紧密相关的关键技术。目前广泛应用的注册跟踪技术可以分为3类：基于传感器的注册跟踪技术、基于视觉的跟踪注册技术、和基于传感器与实际的混合跟踪注册技术。

4.1基于传感器的跟踪注册

基于传感器的跟踪注册技术，首先记录实际场景中用户的方向和位置，在便保持虚拟空间和真实空间连续性的基础上，实现虚拟对象与实际场景的精确配准融合。常用的传感器技术主要有：磁场（magnetic）跟踪注册、声学（acoustic）跟踪注册、光学（ortic）跟踪注册、惯性（inertial）跟踪注册。

磁场跟踪注册系统，由控制器、磁场发射器和接收器组成，利用磁场相关的参数，从而确定用户的位置和方位。例如徐彤等设计的六自由度电磁跟踪系统。

声学跟踪注册系统包括超声波发射器、接收器、和处理单元。利用同一声源到达不同地点或者不同声源的超声波到达同一地点的时间差、声压差等参数进行跟踪注册。超声波跟踪注册系统成本低，抗电磁干扰能力强，但是非常容易受周围环境的噪声、温度、湿度以及遮挡问题的影响。

光学跟踪注册系统使用感光设备，接受发光元件产生的光线，用以测量目标的方位。该类系统的精度高，不受噪声和电磁场影响。主要缺点是易受视线和遮挡的影响，而且设备昂贵。

惯性跟踪注册系统使用惯性传感器，获取用户或摄像机的运动方向和姿态，获取摄像机的运动位置和速度。使用惯性跟踪注册技术存在着漂移和误差累计，因此精度不高，必须与其他注册跟踪技术联合使用，才能达到较高的精度。

基于传感器的跟踪注册系统，可以记录真实场景中用户的方向和位置，在此基础上保持虚拟空间和真实空间的连续性，实现精确配准与虚实图像的融合。

4.2基于视觉（vision-Based）的跟踪注册

基于视觉的跟踪注册基于视觉跟踪的跟踪注册则不需要使用传感器设备，由于硬件成本相对低廉，而受到越来越多地关注。

基于视觉的跟踪注册过程为：首先根据摄像机摄入的图像或视频流进行处理，检测图像中目标物体的特征，并欲与预存的场景图像的特征进行匹配。若匹配成功，通过图像特征可以获得摄像镜头的单应性矩阵，据此可以计算出摄像镜头相对于场景中物体的位置及姿态。跟踪注册主要是基于标识的跟踪和无标识的跟踪。

基于标识的跟踪注册技术，由于标识是人工放置，由此根据计算机视觉中的透视投影算法，即可获取摄像机相对于标识的转换矩阵，从而获得注册信息。目前基于标识的跟踪注册系统，已有ARToolKit，ARTag等。ARToolKit较为适用小规模的应用，而ARTag在处理较大规模的应用时则处理速度更快。基于标识的跟踪注册计算复杂度较低，具有较好的精确性，但同时也易受遮挡的影响。

无标识跟踪注册技术，又称为基于自然特征点的注册跟踪技术，是直接利用场景中存在并且容易识别的实景物体的自然特征，提取识别的基准点。经典的算法有Ferns算法、SURF算法、和SIFT算法。在手持设备上运用时，由于真实的场景往往比较复杂无标识跟踪注册的计算量较大，实时性较差。

4.3混合跟踪注册技术

混合跟踪注册是指在同一增强现实系统中采用两种以上的跟踪注册，以实现各种跟踪注册的优势互补。基于传感器的跟踪注册技术跟踪需要较为昂贵的硬件设备，易受外部环境变化的影响，但是实时性好，鲁棒性高。基于标识的跟踪注册的主要性能特点是精度高，实时性较差。把这两种注册跟踪技术相结合，则可以综合各自的优点，弥补各自的缺点，使其成为一个鲁棒性较强、实时性较好、精度较高并且受外界干扰较小的综合跟踪注册系统。例如Azuma等在1998年提出的将GPS、视觉跟踪注册技术和惯性传感器三种技术综合户外增强现实系统。

篇4

中图分类号：G642

文献标识码：B

文章编号：1672-5913(2008)02-0095-05

1引言

随着计算机网络和虚拟现实技术的发展，现代远程教育引发了一场深刻的教育模式和教育观念的变革。传统的文字、幻灯、实物模型的教学方式已不能满足教育变革的要求，如何把枯燥的学习对象构造成三维可视化的、所见即所得的学习教具和学习培训环境，成了教育信息领域努力追求的目标之一。

本文开发的远程交互式三维仿真课件编辑平台是在对OSG(Open Scene Graph)进行功能扩展与大幅度改造后的一个易于快速定做仿真课件的平台。该平台将三维仿真设计、实时渲染浏览和远程网络压缩等功能融为一体，使用户可以针对教学重点、难点，方便快捷地制作出三维仿真教具和实物模型，用于形象教学和交互式趣味教学。

该平台通过标准化设计把一些知名的开源软件和引擎融为一体，如Open Scene Graph(OSG)、Open Dynamics Engine(ODE)、Character Animation Library(CAL3D)、OpenGL等。通过对这些底层模块进行隐藏封装、模块整合等技术开发，继承与发展了各类引擎所具有的先进特性。不但仿真效果的真实性大大提高，而且能直接处理大量模型数据，使高质量的三维画面在远程交互中能快速传输，为广大师生展现了全方位的、真实的学习对象和学习环境。

2总体功能结构

远程交互式三维仿真课件编辑平台由3dsmax建模及输出模块、场景编辑器模块、仿真数据库管理模块、仿真算法模块、VR仿真内容系统模块、流体动力学粒子系统仿真模块、网络仿真及通讯模块、多通道视觉仿真模块、各类仿真特效模块、OCX控件二次开发包模块等功能模块组成，如图1所示。

2.13dsmax建模及输出模块

在仿真项目的制作过程中，明确需求并确定计划后，首先要面对的工作就是仿真场景的构建。该模块支持对Multigen openflight等多种文件格式的导入，且能对输入的场景自动优化。用户不但可以在场景中建立新的几何物体，而且能创建自己的实时图库，可以随时入库和调用。此外，模块还支持MAX的视图操作功能，用户可对模型进行平移、旋转、缩放等操作，建模模块如图2所示。

仿真项目的场景构建完毕后，可以通过这个模块向原来内容相对比较单一的几何体赋予仿真需要的各种属性，诸如LOD、switch节点、碰撞、物理属性等。此外用户还可以对各节点进行增加、删除、重命名等操作，或者改变节点的Group关系。同时该模块提供对形体、光源和相机的直接操作，以及真实感属性的编辑，极大地提高了虚拟世界的真实度。如图3所示。

2.3仿真核心工作模块

这个模块是仿真系统的工作核心，主要处理一些内核的仿真任务的调度，各个任务之间的结构是基于事件驱动的结构关系。模块初始化时会建立一个动态的事件列表，并按时间的先后顺序确定任务的优先级。当某个事件被触发时，核心工作模块就会通过消息机制激活所有的与该事件相关的过程或函数，协调各仿真模块共同工作。它主要调度以下几个模块：

Ø 仿真数据库管理模块

数据库是与仿真紧密联系的一个部分，很多仿真数据的读入及保存都必须通过数据库进行。该模块在内核中保留了最基本但功能又非常强大的数据库处理能力，通过这个模块，可以处理海量的数据。当数据量大而导致内存不够时，这个模块会通过一套内置的虚拟内存系统将硬盘与物理内存进行动态交换，并且对大型场景进行动态加载。

该模块的另一作用是将各种插件式开发的.dll功能增强模块作为一个数据库进行动态管理。这样如果用户或者软件研发者需要增加额外的系统功能，只需要编写一个.dll插件，再在这个数据库系统中进行一次注册，然后就会在下次系统启动时自动加载。

Ø 仿真算法模块

无论在数值仿真或者视觉仿真领域，都会面临着许多的仿真算法。这个模块提供了一些仿真领域中最常见或者使用频率最高的算法。用户不用重复编写常用算法，只需要调用几个现成的函数就能解决常见问题。

Ø 流体动力学粒子系统仿真模块

在军事或者其他常见领域的仿真中，粒子系统是种常见的现象，如轮船开动时的尾迹、飞机航行时的尾迹与烟雾等。在粒子系统仿真模块中，大量的粒子图元集合在一起，通过其属性的变化表现物体的物理特性，用以进行不规则物体的模拟。用户可以通过定义粒子的形状、大小、生存期、位置、速度、加速度、颜色、透明度等属性来实现对各种烟雾、火焰、闪光等现象的模拟。如图4所示。

Ø 各类仿真特效模块

在自然界中存在着很多的自然现象，如下雨、下雪、水面的反射、有阳光或者灯光时的镜头光晕等等各种效果。该模块支持以上提到的各种特效，令仿真的效果栩栩如生。如图5所示。

Ø 网络仿真及网络通讯模块

该模块支持内部网与互联网方式演示。当互联网因带宽受限以及客户机配置未能达到基本要求时，可采用降低图形质量的方法进行传输。内部教学网络则可以不受限制，便于集中培训教学与虚拟实践。该模块还设置了分级权限使用，给不同身份的用户授予不同的权限，便于系统管理。

Ø 多通道视觉仿真模块

在一般的视景仿真系统中，通常采用单视觉通道来显示三维图形。单视觉通道只能显示一个视野，而利用多通道视觉仿真系统就可以得到更广阔的视角效果，增强了“沉浸”感。

该模块提供了获取当前视角的函数，且支持水平和垂直视角自动匹配的功能。在视点位置、方向以及远近裁剪面的距离确定后，系统还可自动完成视景体的裁剪。

2.4VR仿真内容系统模块

该模块可将仿真课件成独立的exe文件，且所有必需的库文件与资源均打包在内，用户可自行设计图形界面，便于分发与保密。打包后的可执行文件在运行时支持用户的交互式浏览，用户可以根据需要选择自动播放或单步操作，方便教学与虚拟装配。

2.5OCX控件二次开发包模块

交互式三维仿真课件的开发一直被认为是一项复杂的工作，因为涉及到C语言、OpenGL、Direct3D等基础开发工具的应用，这无疑降低了开发效率，延长了开发周期。因此这一模块引入了与各类开发平台挂接和无缝植入的快速虚拟现实开发工具3DVR OCX，通过此可编程控件OCX，用户可以轻松做出实用的仿真课件，极大地提高了开发工作的效率。如图6所示。

3关键技术研究

3.1场景图

内核采用场景图SG(Scene Graph)结构，通过场景图把各场景及其属性组织成一棵场景树。场景图中的根结点表的是整个三维场景，子结点表示场景中每个对象的位置信息、动画设置以及逻辑关系等属性，叶子结点则代表物理对象本身、可拉伸的几何模型和材质属性。

采用这种树状组织结构可以大大缩减剔除的执行时间。当父结点对象被遮挡或处于观察区域以外时，父结点就被设置为不可见，位于父结点以下的所有子结点对象也都是不可见的，这样就无需再比较子结点对象的空间边界，避免了重复执行对多个对象物体的剔除处理，从而加快了场景渲染的速度。例如，要剔除一座大楼时，只需计算这座大楼的空间边界是否在观察区域内，而大楼的门、窗等对象因为属于大楼对象的子结点，就无需再判断其空间边界，从而缩短了剔除的执行时间。

此外，场景图结构还使得动画设置变得更加灵活。当我们要对一辆汽车设置平移动画时，只需对汽车这个结点设置移动的相关参数，处于子结点位置的车轮、车门等对象就无需再进行重复设置。如果用户只要求车轮做旋转动画或者车门做开门动画时，只要查找到对应结点，设置动画参数即可。由此可见，对于一个包含有多个对象的三维场景，这种树状结构有效地简化了动画设置的操作过程。

场景图结构中还集中了对各个对象的状态管理。场景图中的每个对象都有一个指向状态集的指针，这个状态集中包含了颜色、纹理、灯光、透明度等信息。对处在同一层的对象，首先归纳出它们的相似状态，并设置状态指针指向同一个状态集。例如，图7中坦克的炮塔和基座同处在场景图的第二层，所以状态都设置为迷彩色。这种状态管理方式可以简化状态设置的过程。当对象状态发生改变时，我们只需先按照广度优先的顺序遍历场景树，查找到对象后，将状态集中的属性进行一次更改，则同层的所有对象状态都会发生改变。当场景中的图形对象达到成百上千时，这种状态管理方式的优势就会更加明显。

3.2OpenGL着色语言

内置了对GLSL(OpenGL Shading Language，OpenGL着色语言)的支持，突破了OpenGL传统渲染模型的固定功能性。用户可以自定义渲染管线的处理过程，实现顶点着色和片断着色，从而绘制出更丰富的纹理，模拟更真实的自然景象。同时该技术是直接对显卡编程，源代码在OpenGL内部编译，不占用CPU资源，因此在处理三维图形的实时渲染方面显示了强大的优势。

具体的实现过程是，当处理图形渲染任务时，首先调用OpenGL的一个API函数glCreateShader来创建着色器(shader)，同时在OpenGL的驱动程序中为着色器分配数据结构。着色器通过获取当前OpenGL中的状态信息(如位置、颜色、法线等)进行投影变换、坐标转换、颜色计算等操作，然后调用glShaderSource命令将着色器代码传递给OpenGL驱动程序，用glCompileShader命令将代码编译成机器语言，并以二进制文件的格式传递给显示硬件。该方法不依赖显示硬件的汇编语言接口，突破了图形硬件在汇编语言接口上的诸多限制，有效地提高了图形渲染的效率。

4实例研究

三维仿真课件可以模拟各种真实的空间和实体，能展现那些在传统教学中无法实现的教学效果，如一些危险的或是耗资巨大的实验。尤其在工科教学中，许多知识点抽象难懂，成为了教学中的难点。

目前使用远程交互式三维仿真课件编辑平台已经开发了很多直接面向应用的精品课件，使用该系统开发的“千斤顶的组装与工作原理”课件在实际教学中已收到良好的效果，如图8所示。该课件主要用于培训千斤顶的组装与拆卸，课件中所展示的千斤顶的各个零部件，都是与实际大小相符的三维模型，且零件表面按实物材质仿真，教师和学生可以旋转任意视角观看设备的外形、细节部分和整体外观。课件中设置有整体或局部零件的工作动态演示，用户可以选择自动播放设备零部件拆分和组装演示，也可以进行手动单步拆分与组装。其中自动演示过程是可控的，用户可随时中止或重播动画。这种交互方式不但增强了装配过程的直观性，也提高了学生的动手能力。为了加强学生对千斤顶工作原理的理解，课件中还增加了整体和局部零部件的工作动态演示，任何零部件只要用鼠标点击，其应有的工作动态、工作原理和装配方式就能自动展示出来，同时还配有零部件的详细参数信息、文字说明与二维设计图。

“千斤顶的组装与工作原理”课件以其强大的交互功能、简便直观的操作方法以及实时的三维表现能力得到了广大师生的一致赞同，也推动了三维仿真课件在教学一线的普及。

5结束语

远程交互式三维仿真课件编辑平台是针对教学重点、难点的培训而开发的集三维仿真设计、实时功能渲染浏览和远程网络压缩于一体的仿真系统设计开发包。

该设计平台的成功开发将解决教育领域重点、难点课程的仿真教学课件的制作难题，完善了教育领域远程教学平台的建设，并节约教学培训设备的巨大开销。我们相信，在未来的教育领域中，远程交互式三维仿真课件编辑平台将为信息时代的教育发展注入新的活力。

收稿日期：2007-10

参考文献

[1] 项慨. Java3D应用于现代远程教育的关键技术[J]. 教育信息化,2006,(10).

[2] 刘少华. 虚拟仿真引擎及其在三维飞行再现中的应用[D]. 国防科技大学,2004,(12).

[3] 赵春霞,张艳,战守义. 基于粒子系统方法的三维火焰模拟[J]. 计算机工程与应用,2004,(2).

[4] 陶唐飞,韩崇昭. 视景仿真系统光学视觉通道技术研究与实现[J]. 系统仿真学报,2004,(4).

作者简介

篇5

中图分类号：TP15文献标识码：A 文章编号：1009-3044(2011)17-4152-03

Three Dimensional Terrain Modeling Method with Creator Software Based on the ASTER Remote Sensing Data

TAO Hai-jun1, YANG Jing2, YE Xiao-jun1

(1.Artillery Academy.PLA, Hefei 230031, China; 2.Anhui Sanlian University, Hefei 230001, China)

Abstract: Large area real terrain modeling is the key technology in developing Visual simulation system. This paper provides a terrain modeling method with Creator software based on the ASTER remote sensing satellite data, the GeoTIFF data format provided by ASTER is being converted to the USGS DEM data by using format Conversion techniques, the terrain model of some region is established through Creator terrain modeling technology, the three-dimensional model of real terrain is established practically and quickly.

Key words: ASTER; GeoTIFF data; DEM data; format conversion; creator terrain modeling

视景仿真是三维地形建模技术、图形处理和图像生成技术、立体影像和信息合成技术、计算机网络技术、仿真技术等诸多高新技术的综合应用，在很多领域如军事训练、城市规划、健康医疗、教育培训等方面都有着广泛的应用。大面积真实地形三维建模技术是实时视景仿真系统开发的关键技术之一，是近年来视景仿真领域研究的热点。能获取真实、准确地表述地形起伏特征的地形数据源是进行大面积真实地形三维建模的前提条件，地形数据源主要是指建立数字高程模型(Digital Elevation Model，DEM)用到的高程数据，获取方法主要有以下几种：1）采用大地测量的方法直接从地形上测出高程；2）利用航空摄影测量照片，采用数字高程判断仪从两张对应的照片上读取高程；3）利用遥感卫星星载设备获取地形高程数据；4）从小比例尺等高线地图上读取高程数据；5）从现有的地理信息系统提取所需区域的地形高程数据[1]。其中利用遥感地形数据源进行大面积地形三维建模是目前地形建模的主要方法之一，本文重点研究基于ASTER遥感数据的Creator三维地形建模过程、方法和技巧。

1 ASTER遥感地形数据源精度解析

ASTER(Advanced Spaceborne Thermal Emission and Reflection Radiometer)是美国航空航天局(NASA)与日本国际经贸商业部(METI)合作的高分辨率卫星成像设备，于1999年12月搭载NASA的EOS-AM1(Terra)平台升空，目地是获取地球表面温度、辐射、反射和高程数据，研究生物圈、水圈、岩石圈和大气层之间的互动反应，解决土地利用与覆盖、自然灾害（火山喷发、水灾、森林火灾、地震和风暴）、短期天气变动、水文等方面的问题。ASTER有可见光和近红外区(VNIR)三个波段，在短波红外区(SWIR)有六个波段，在热红外区(TIR)有五个波段，它们的地面分辨率分别是15m、30m、90m。

2009年，美国航空航天局(NASA)官方网站提供了ASTER的最新全球遥感数据，该数据源采用的是GeoTIFF数据格式的DEM数据（简称ASTER GDEM），ASTER遥感数据记录的地域非常广阔，覆盖范围从北纬83度到南纬83度，除了部分极地区域，覆盖绝大部分的地球区域。每个ASTER GDEM地形文件包含1度×1度的范围，用一个3601×3601像素的TIFF图片来记录地形信息，采样精度达到了30米，海拔精度为7-14米，基本满足普通三维地形建模的数据精度要求[2]。

2 ASTER遥感数据格式转换技术

ASTER遥感数据采用GeoTIFF(Geographic Tagged Image File Format)存储格式，GeoTIFF是TIFF (Tag Image File Format)图像文件格式的扩展。TIFF (Tag Image File Format)图像文件是图形图像处理中常用的格式之一，其图像格式复杂，但由于它对图像信息的存放灵活多变，可以支持很多色彩系统，而且独立于操作系统，因此得到了广泛应用。在各种地理信息系统、摄影测量与遥感等应用中，要求图像具有地理编码信息，如图像所在的坐标系、比例尺、图像上点的坐标、经纬度、长度单位及角度单位等等。对于存储和读取这些信息，纯TIFF格式的图像文件很难做到，而GeoTIFF作为TIFF的一种扩展，在TIFF的基础上定义了一些GeoTag（地理标签），对各种坐标系统、椭球基准、投影信息等进行定义和存储，使图像数据和地理数据存储在同一图像文件中，这样就为开发人员制作和使用带有地理信息的图像提供了方便途径[3]。

目前可用于进行三维地形建模的开发软件很多，比如3DS MAX、Auto CAD、Maya、MultiGen Creator等，使用的开发环境不同，所需要的数据源格式也不相同。笔者选用MultiGen-Paradigm公司开发的Creator软件进行三维地形开发，使用该软件建立模型，可以在满足实时性的前提下，生成面向仿真的、逼真度高的大面积地形。然而ASTER GDEM格式的DEM地形数据文件不能直接在MultiGen Creator中使用，必须首先将ASTER GDEM格式的地形数据文件转换成MultiGen Creator支持的USGS DEM(U.S.Geological Survey Digital Elevation Models)格式或者DTED格式，然后利用Creator地形格式转换模块生成MultiGen Creator专用的数字高程数据(Digital Elevation Data，DED)格式文件，上述格式转换的过程是三维地形生成的重要环节，该转换过程可用图1所示的流程图进行描述。

转换步骤为：

1）应用Global Mapper软件提取ASTER GDEM数据文件中的地形数据信息，其中每个采样点用(经度，纬度、高程)表示，Global Mapper会完成数据二维可视化图像和3D模型的显示。如图2所示绘制的是北纬37度、东经117度附近地域的ASTER GDEM格式的数字高程模型。

2）在File菜单下选取Export Raster and Elevation Data项，在二级子菜单中选择Export DEM Command菜单项输出USGS DEM数据格式或者选择Export DTED command菜单项输出DTED数据格式。

3）在Options属性页中设定经纬度方向的格网间距，在提取范围属性页中设定地形数据的经纬度范围，生成采样点的经纬度高程信息。

4）打开Multigen Creator，借助Creator平台的Terrain模块的DED Builder 工具，将DEM格式文件生成Creator专用的高程数据格式文件(DED)，如图3所示将USGS DEM数据格式转化为DED数据格式。

图2 Global Mapper绘制的GDEM数字高程模型图3USGS DEM数据格式转换成DED格式

3 Creator三维地形生成技术

根据仿真任务的不同需求，应建立不同分辨率的三维地形，比如飞行仿真需要大范围的地形，实时性要求高，但对地形细节要求不高，而基于地面的车辆驾驶和徒步行走的仿真，需要较高的分辨率，但是地形的使用范围较小，开发人员需要结合其仿真任务需求灵活设置不同的参数。进行Creator三维地形的建模的关键内容是地形的LOD（层次细节）、投影方式、建模算法等参数的选取与设置。

3.1 层次细节模型参数设置

层次细节模型（Level of Details，LOD）技术的思想是在不影响画面视觉效果的条件下，通过逐次简化景物的表面细节来减少场景的几何复杂度，其目的是提高绘制算法的效率，增加仿真的实时性。例如，若有许多可见面在屏幕上的投影小于一个像素，则完全可以合并这些可见面而对画面的视觉效果没有任何影响。该技术通常对每一原始多面体模型建立几个不同逼近精度的几何模型，与原模型相比，每个模型均保留了一定层次的细节。由于LOD算法要涉及到动态细分或规并三角网，所以运用LOD算法时，常采用规则网格进行地形建模。如图4所示在Creator中设置LOD 为3层。

3.2 设置投影方式

Creator提供五种地图投影方式：Flat Earth、Trapezoidal、Lambert Conic Conformal、UTM和Geocentric。Flat Earth在原点使用纬度，得到调整每个x值的单收敛因子，生成一个矩形的地形；Trapezoidal是一种方位角映射，在中心点最精确，离中心点越远越扭曲；Lambert Conic Conformal使用两条标准纬线，在北纬84°和南纬80°的中间最精确，距离两极越近越扭曲；UTM使用旋转90°的柱面圆柱投影，在经度上将地球分为六个区域，沿着中央子午线最精确，越远离子午线越扭曲；Geocentric方式使用圆形地球映射，Z轴以地球中心为起点通过北极。我国地处中纬度地区，适合采用斜轴方位投影。选择Trapezoidal地图投影方式，较好地保持了地形的轮廓形状和地理位置，使等变形线与制图区域的轮廓基本一致，减少了变形，提高了精度。如图5所示设置投影方式为Trapezoidal地图投影方式。

3.3 建模算法

用Creator将数字高程数据转换成地形时，可以选择四种转换算法，分别是Polymesh、Delaunay、CAT和TCT四种算法。

Polymesh转换算法主要适用于BSP进行遮挡计算的实时系统。基本思想是，通过在原数字高程数据文件中对高程信息进行有规律的采用，从而获取地形多边形顶点坐标，创建矩形网络的地形数据库。

Delaunay转换算法是一种基于Delaunay三角网的地形生成算法，主要适用于使用Z-buffering进行遮挡计算的实时系统。与Polymesh算法相比，生成相同精度的系统模型，使用Delaunay算法的地形模型中包含的多边形数量较少。使用Delaunay算法时，数字高程数据中的每个高程点都会被采样，而且会从最低的LOD地形模型生成，较低LOD模型中的多边形顶点会被合并到较高的LOD地形模型中，以保证LOD地形之间的平滑过度。

TCT（Terrain Culture Triangulation）转换算法相当于一种限制性的Delaunay算法。当使用TCT算法生成的地形时只能有一个单独的LOD，而且只能用于批处理地形转换中。

CAT（Continuous Adaptive Terrain）转换算法是一种改进型Delaunay转换算法，该算法提高了相邻LOD地形之间的平滑过渡，可以有效避免由Polymesh和Delaunay算法生成的多LOD地形模型转换的视觉跳跃现象。

本文选择Delaunay三角剖分算法，因为，与规则网格算法(Polymesh)相比，生成相同精度的地形模型，使用Delaunay转换算法的地形数据库中包含的多边形数量较少。

3.4 纹理贴图

根据地形模型的LOD数量，将每张图片调整为相应数量和精度的分辨率，将它们加载到Creator的纹理调板，并定义为地形纹理，设置纹理图片的纹理坐标和地图投影方式。

纹理坐标必须对应于地形模型的面积范围和坐标位置，地图投影方式则必须和对应地形模型的设置一致。然后通过Terrain/Batch GeoPut菜单命令，为对应的LOD地块模型映射纹理。

图6 生成的不含纹理的三维模型图7 加入纹理映射后的三维模型

3.5 测试地形并进一步优化

整个三维地形生成完毕后，将其导入视景驱动环境下，在计算机仿真硬件平台上，通过视点变换、其它仿真应用添加、网络连接等多个综合测试环节，观察场景运行的实时性和逼真度。地形模型数据库的生成是一个需要反复试验的过程，需要反复地优化参数、完善模型，在实时性与逼真性之间进行平衡，合理设置转换参数，最终达到最好的仿真效果[4]。

4 结论

本文采用我国东经117度～117.5度，北纬37度～37.5度地域的ASTER GDEM数据及其卫星遥感图像作为原始数据和地表纹理图像，地球椭球模型选择美国的WGS-84地球椭球模型，地形转换选用Delaunay地形算法，地形模型的LOD数目设为3，根据地形模型的LOD数量，将每张地表纹理图片调整为256×256、128×128、64×64像素三种分辨率，映射到不同LOD分辨率的模型。最后生成的三维地形模型的范围约为48×56km2，共259200个面，地形效果图如图7所示。通过仿真程序测试，利用ASTER遥感数据生成的大面积三维地形达到了精细度高、真实感强、实时性好的仿真要求。

参考文献：

[1] 王贵林,姚鑫.ASTER立体像对提取山地DEM精度研究[J].矿山测量,2008(6):34-35.

[2] 程博,刘少峰,杨巍然.Terra卫星ASTER数据的特点与应用[J].华东地质学院学报,2003(3):15-16.

篇6

美国畅销书作者、发明家雷.库兹韦尔（Ray.Kurzweil）在《奇点临近》一书中为人工智能的出现设定了三个条件：强大的计算能力、海量的知识储备，最后还需要教会计算机拥有认知能力，通过机器学习技术让计算机不断的自行进化。

前两者已经实现。第三点，如何让机器拥有认知能力是AI极客们关注的重点。

机器学习是人工智能的核心。机器学习将教会计算机认识现实世界，知道自然界的日升日落、阴晴圆缺，并能理解人类的行为和语言。机器学习的常用领域包括数据挖掘、视觉理解、语音识别和自然语言处理等方面。我们采访了数位科技公司高层、新锐创业者，他们有一个共同的身份―国内从事机器学习的应用和研发的专家。他们讲述了中国人工智能发展的现状，而一旦科技出现新突破，也预示着新一轮的商业变革。先知

坐在记者对面，脸庞消瘦的陈运文笑得有些腼腆，言语却充满自信，“很多事情都是可以预测的”。

陈运文是国内大数据方面的专家，曾任百度核心技术研发工程师和盛大文学首席数据官。现在他是个创业者，达观数据创始人兼CEO。他为公司新入职的同事下发了一套题――如何预测泰坦尼克号上的幸存者。整套题通过获取泰坦尼克号上所有乘客的真实信息，包括性别、年龄、职业、票价、舱位等，然后编写程序来预测这2000余名乘员中哪些人最终得以生还。

在陈运文眼里，将所有信息加以综合挖掘，就能够推演出最终的答案―“705名生还者都可以准确预测。”

预测这样的事件只是数据挖掘的一个案例，对于极客而言，只要给他们足够的信息，这个世界就没有意外和偶然。

现在，陈运文用自己的技术帮助企业进行商业决策。虽然只成立不到半年，但这个隐藏在张江天之骄子公寓里的创业公司已经获得真格基金和盛大网络创始人陈大年的投资。

陈运文将第一批客户瞄准为自媒体人，通过数据分析，为自媒体提供可以引发热议的话题，并告诉这些作者，什么人喜爱看他们的文章、会关注什么话题。

让机器自己学会分析信息早就在商业行为中广泛存在。在百度工作期间，陈运文负责搜索引擎的核心算法研究，主要“为用户提供最有价值的信息”。工作的难点不在于搜索信息，而在于让机器认知用户的搜索意图。

用户经常会在搜索框中输入“口语词汇或者模糊的语句”，服务器要从人们的搜索语句中判断真正的需求。陈运文就需要设计算法让搜索引擎理解用户的语义，从数百亿的网页中迅速找到对用户最有价值的结果。这种“算法”就属于人工智能。百度每天的搜索有数十亿次，每当陈运文改进了算法都能看到用户点击的满意度在上升。

今天这种依靠数据挖掘技术来提高企业运作效率的方法变得更常见，业内将其称为“商业智能”（Business Intelligence）技术。陈运文计划将这种技术在云端运用，另一些同类公司则将这种技术直接运用在软件上。2010年在美国纳斯达克上市的Qlik公司就是商业智能软件的代表企业。他们的QlikView软件为用户提供“可视化”的大数据服务。

“我们的软件可以理解数据，挖掘数据并将其用更直观的方式展现给客户，以帮助管理层做出决策。” Qlik亚太区制造业和高科技市场开发总监Jeremy Sim对《财经天下》周刊表述。

这些带有“预测”功能的软件已经在服务并改变人们的生活，比如根据顾客的购买信息QlikView会提示便利店店长，售货架上的麦片不应该和面包摆在一起，虽然它们都是早餐食品，但如果将麦片和酸奶摆在一起，销售数字会更好看。此类预测还进一步提醒物流部门，尽量地在头天晚上补足麦片和酸奶货源。这类商业智能的应用渗入所有人的生活，以这家公司为例，他们已经在全球100多个国家招徕了3.8万企业客户，间接服务人群上千万。

未来这些带有“智力”的系统将会更多的出现在电商、医疗、教育、金融等领域。“比如随着智能手环的增加，会有更多的健康数据被采集，那么我们会提供健康预警、治疗方案推荐等服务。”陈运文说。现在只是大数据挖掘的初级阶段，人工智能时代也才刚刚开启。视觉理解，打造机器之目

2014年6月，比尔・盖茨访华，除了见政商要员外，他还专门造访了一家刚成立一年的创业公司―格灵深瞳。对于这家初创公司，比尔盖茨留下了两句后来被广泛引用的评语“This is very cool”和“IT界的下一个大事件是计算机视觉（computer vision）与深度学习（deep learning）的结合”。

格灵深瞳就是这样一个结合了计算机视觉和深度学习为一身的酷公司。创始人赵勇是致力于视觉理解的知名极客，虽然他本人并不喜欢这个称谓。

“极客（Geek）在英文里形容书呆子，只会做技术不通世事，但我觉得我是一个懂技术的正常人。”他对《财经天下》周刊说。

赵勇专攻计算机视觉和运算影像学，2009年入职谷歌总部研究院任资深研究员，是谷歌眼镜项目的骨干。“我们团队负责谷歌眼镜的场景识别技术，利用谷歌街景来判断使用者所处的位置。”简单地说就是将谷歌眼镜捕获的图像和谷歌街景做比对，然后快速地定位用户所处位置和周边信息。谷歌眼镜可以在500毫米之内将用户的位置精确到米级别。赵勇说谷歌眼镜并不是“进化的产品，而是从无到有的突破”。

2013年初，赵勇回国创业成立格灵深瞳，并在三个月后拿到真格基金和联创策源的联合天使投资，同年6月格灵深瞳又拿到红杉资本 A 轮高达数千万美元的投资。

业内传播着投资人争论其未来估值的段子，据说某次饭局上真格基金的徐小平、红杉资本的沈南鹏和联创策源的冯波讨论格灵深瞳的未来估值，徐小平认为起码5000亿美元，而沈南鹏认为1000亿美元，最后冯波折中地认为3000亿美元。而现在中国电商巨头阿里巴巴的市值还不到1900亿美元。

受到比尔・盖茨和投资人如此追捧的原因在于赵勇的研究方向―计算机视觉，这是机器学习中极为复杂的领域。

将赵勇和陈运一个对比就可以看出他们研究方向的不同。赵勇认为数据挖掘是让计算机理解“结构化信息”，结构化指那些人工制作的成型的信息数据，例如一句话一段文字或者一份表格。但计算机视觉需要让机器理解飘过镜头的一片树叶，或者悄悄走过的一只猫。

陈运文对此也做了比较，他认为数据挖掘更多的是处理文本信息，而文字是具象的表达，机器看到汉字“猫”或者英文“cat”就可以理解这是一种动物，但图片是抽象信息，给计算机看一张猫的图片，让它去理解猫的概念非常困难。

所以当2012年6月谷歌X实验室宣布他们研发的“谷歌大脑”通过百万张图片的学习后可以识别“猫”的时候，全世界都为之震惊。这意味着谷歌培养的这个“孩子”具备视觉理解的能力可以“看图说话”了。而参与“谷歌大脑”研发的吴恩达博士（Andrew Ng）也因为这个项目被誉为“谷歌大脑之父”，成为机器学习领域最权威的学者。

为了建造“谷歌大脑”，吴恩达使用了神经网络系统，他们连接了1.6万片处理器创造了一个拥有10亿多条连接的神经网络，并逐步地培训这个系统，直到它拥有识图的能力。

现在，赵勇做的事情与此类似。

他通过影像设备捕捉实时画面，让计算机识别这个真实世界，更为直接的说法或许是―赵勇正在研制“机器人之眼”。

像谷歌一样，想让计算机能识别图像，赵勇也需要制作一个“深度神经网络”系统。

在人脑中有大约1000亿个神经元，神经元通过神经突出连接在一起就变成了一个神经网络，人们思考问题的时候这些神经网络相互激发，最终产生决策。现在极客们用计算机来模拟这个过程，用计算程序建立起庞大的计算元素，这些程序运算的结果通过网络互为交换互相影响，最终产生结果，这就是初级的人工神经网络。人工神经网络层级越多规模越大，其“聪明程度”就越高，学习的能力就越强。

要培养这样一个会“识图的孩子”，赵勇除了要建立这样一套庞大的神经网络之外，还需要不停训练这个网络。

“可以将神经网络当成一个黑盒子，我在里面设定了一些基本参数，随后不停的往里面输入数据、图片来训练它，通过这种大量的训练，黑盒子里面参数的连接会越来越紧密，整个网络也会越来越聪明，最终变成一个可以识别图片的智能系统。”

严格地说，人工智能不是人类设计出来的，而是人类训练出来的。即便是赵勇这样的创建者也无法知道这些神经网络到底如何相互作用相互影响，并最终形成自己的智能系统。他能做的只是“选择输入数据，控制训练方向”。

依旧以老师教育孩子做比喻，虽然赵勇这个老师不知道孩子是怎么理解图片，识别这个世界的，但他可以控制教学的内容，让这个孩子朝某个方面学习。

赵勇花费了两年时间才为格灵深瞳培养出自己的“孩子”，并将这些有“识图能力”的人工智能设备应用到安防监控和汽车识别方面。

去年格灵深瞳推出了名为“目”的行为分析仪，这是一个包含软硬件于一体的智能监控产品。“目”会实时监控场景内的情况，发觉异常就立刻报警或者提醒工作人员注意。而在另一个名为“威目”的产品中，格灵深瞳做到了车辆识别，他们训练系统辨识超过5000种车辆，这几乎涵盖了地球上所有的汽车类型。这种能力为警方办案提供了帮助，警方可以用“以图搜图”的方式让“威目”提供他们需要的视频资料。“警方提供一张汽车照片，威目在识别照片之后可以从交通录像中找出该车的行动轨迹。”除此之外，该系统还可以搜索“结构化信息”，例如在系统中输入2004年生产车牌中含有5这个数字的红色奥迪A4汽车，“威目”就会在资料中截取相关的图像或者视频，而此前这些工作都需要人工完成。

如果计算机视觉技术以这样的速度继续，或许用不了几年，当我们站在摄像头前时，计算机会在屏幕上敲出那句让人激动的言语―“I see you .” 造物者

“谷歌大脑之父”吴恩达在完成了“认猫”创举两年后离开了谷歌，加盟了百度，任职百度首席科学家并负责“百度大脑”的研发。

说服吴恩达做此决定的是他的好友，现任地平线机器人技术CEO的余凯。

余凯是国际知名的机器学习专家，他牵头成立的百度深度学习研究院是国内第一个研究深度神经网络的研究机构，加盟百度时被李彦宏称为“镇院之宝”。

“深度网络学概起始于2006年，当时主要有5个机构从事这方面的研究，分别是多伦多大学、纽约大学、美国的NEC实验室、斯坦福大学和蒙特利尔大学，而我当时在NEC实验室工作。”余凯说。有段时间他还在斯坦福大学执教《人工智能概论》。他领导的团队在深度学习、图像识别、文本挖掘、多媒体检索、视频监控，人机交互等机器学习领域都有建树。

去年余凯离开百度，在中关村的创富大厦租赁办公室成立地平线机器人技术。成立仅4个月，这家公司就迎来了首轮投资，投资方包括晨兴资本、高瓴资本、红杉资本、金沙江创投等多家机构。

比起商业上的追求，余凯更想用技术改变世界―为万物装上人工智能的大脑，让它们变成拥有智能思维的机器人。

在余凯看来，他在百度的工作主要是在“云端”搭建人工智能深度神经网络，其服务主要体现在“为用户提供更智能的互联网服务”，他希望通过人工智能技术应用到物理世界中，让人们的生活变得更方便和简单。“现在很多电器都采用软件结合互联网操控，我希望未来都可以实现本地人工智能操控。”

他准备让汽车、空调、冰箱、微波炉等上千种产品或设备都具有从感知到决策的能力。比如用户进入房间时空调就可以感知人的位置和体温自动开机送风，并追随人的移动而改变送风方向；冰箱则会读取存储食物的信息，及时提醒用户食用或补充。

余凯利用深度神经网络算法来搭建他的人工智能框架。他将这种人工智能系统描述成“类似于安卓的智能硬件的大脑平台”，这个系统可以安装在不同的产品中。

他“改造万物”的计划先从家居产品和汽车两个方面着手。地平线机器人技术研发了针对这两个行业的人工智能操作系统。家居方面的基于深度神经网络的操作系统名为“安徒生”，汽车的则称为“雨果”。

现在 “安徒生”已经入驻家电产品，在刚刚过去的上海家博会展上，地平线机器人和某国内知名家电厂商合作的两款智能产品面世参展。“现在业界最大的智能家居厂商都是我们的客户，我们向他们提供算法操作系统，并告诉他们如何配置硬件设备，就像安卓向手机厂商提供参考设计一样。”

下一步余凯准备让“雨果”进入汽车自动驾驶领域，在安装了传感器、处理器和雨果大脑平台后，汽车可以成为提供无人驾驶或智能驾驶的新型交通工具。

“定义万物智能的大脑，这还要花很长时间，但是我觉得一步一步往那边靠近。” 余凯知道地平线机器人的征程漫漫，但对于AlphaGo对战李世石这样的人机大战新闻他却无比笃定。“赛前几乎所有专家都说这次机器赢不了，但我在接受网易采访的时候就公开预测机器会赢，因为我了解AlphaGo的算法。”

陈运文也表达了相同的猜测。3月9日下午，陈运文就兴奋地预测AlphaGo能够获胜，那时首尔的李世石刚在棋盘上落下自己的第一枚黑子。

篇7

新数据源分析将打破传统商业模式

以司机保险为例，远程信息处理技术的广泛应用意味着基于保险精算表格的共享风险模式的终结，因为司机这个群体从整个人口中消失了，保险是基于对实际驾驶行为的分析来进行收费。医疗保险据此也不会太远，而且这可能正成为公共医疗系统的现实――重新将精力集中在主动式的医疗保健而不是被动地响应疾病的治疗。进一步的，越来越多的像审计师这样的白领正期待分析自动化时代的到来。这是脑力劳动机械化的一个逻辑延续――我们已经忘记了不久前“电脑”和“计算器”还曾是人们的职位名称。

决策者将广泛使用共享、沉浸式的分析体验

BI的发展一直专注在小型设备上，但是现在将转为专注于非常大（像一面墙那么大）的触屏设备上。这使得整个团队可以共同对数据进行实时探索并由此做出决策。在2015年，有39%的人表示，影响决策制定的三大原因之一是与同事的意见不一致，而到2021年，我们所有人都会一起在数据中工作。

BI将会支持更广泛、完全的人类学习模式

2015年，数据得以可视化。但并不是所有使用数据的人都能够获得同等的视觉导向。人类运用个体的感官输入进行学习，这通常有三种模式――听觉型、阅读型以及视觉型或动态型。

到2021年，商业智能将利用信息传递手段使用所有学习模式，比如对于听觉型的学习者，会自动生成口头或书面的叙述形式来描述所选数据的形状或者图表内容。与此类似，3D打印图表绘制对于动态型的学习者而言无疑是扮演了一个重要角色，这使他们能够亲身感受到谁工作得最好。当然，对于视觉导向的学习者来说，他们面临的选择将会增加，利用大量高分辨率显示器实现大量数据集的展现甚至虚拟现实的体验。

对数据的解读能力将大大提高

毫无疑问，在未来五年里，人们对各种形式的数据可视化将更为熟悉，将会更容易从图表中读取和利用其中的深刻洞见。（这与人们对电影的解读非常相似。随着时间的推移，人们逐渐熟悉胶片的“语言”并把对电影的解读作为人类的第二天性）也许更重要的是，教育系统将会加入更多商业分析和其他课程。领先的公司将会对员工进行数据读写能力的培训，因为他们意识到员工的数据解读能力将为企业增加竞争优势。当然，更多有数据学习经验的人对于数据的要求也会更多。

个人分析能力成为基本要求

我们看到的一些自我量化的行动也许现在看来非常让人厌恶，但是随着服务和设备产生更多的数据，这些行为很快就会成为一种惯例。因为，这些对“我的数据”进行个人分析会成为自我改善的一种方式。

不仅如此，人们还会越来越多的在家庭生活以及社交生活（无论是地理上的还是兴趣分享上的）中使用分析。对于软件供应商来说，这是一个有趣的暗示，它代表了另一个消费趋势，个人喜好终将会导致“携带个人化的分析工具”时代的到来。

更多人将会利用预测分析

虽然许多企业都会安排一些人做更为复杂的统计预测，但是这并不普遍。行业分析师的数据显示，仅不到20%的人在广泛使用预测分析（作为他们BI项目的一部分）。要克服这一障碍有两个至关重要的驱动力。首先是使用技术，通过自动向他们展示未来趋势来推动那些非统计专业的人士使用预测分析工具。比如，使用最佳模式来预测三个时期的支出情况的线形图，用叙述的形式告诉用户，KPI将会在某个日子掉落到一个不可接受的范围，或者在分析应用里使用蒙特卡罗模拟算法。第二个驱动力是让工具变得更广泛可用，从而支持预测性模型。过去，技术和知识是不对称地分布在少数专家手中的。到2021年，这种持续还不到20年（通过开源R统计语言）的现象就将会完成古腾堡为了写作所做的统计概率分析。

分析历史数据变得更简单

数据存储花费的急剧下降意味着，到2021年，各机构将拥有可访问的可读形式的数据（没有磁带备份），可以及时回溯。这将实现算法识别和深度模式的分析，分析过去的数据，证明分析周期超过经济周期是有用的。这还将帮助机构不要重蹈覆辙。以上次经济萧条为例，由于数据已经无法回溯，企业因此不能学到教训，这在2021年就不会发生了。

智能决策自动化（IDA）将随着机器更智能而采用更多商务决策

在2016年，IDA只能处理简单的战术（例如单个客户/状态）决策，但是由于AI在学习和模型中的应用更为广泛，IDA将会有更广泛的选择而不仅仅是决策树形图的展现。像谷歌这样的先行者让它的机器学习软件（TensorFlow）开源化的举措，只会增加AI在决策中的使用，但这是有局限性的。

更多机构将会进行决策回顾

根据Qlik收集的数据显示，2015年只有23%的机构会例行查看商务决策的结果。鉴于此，投入BI的理由常常是“提高决策能力”。到2021年，更多机构将会塑造更多决策。“决策”因此也会成为BI元数据类型，因此也是可以分析的。我们可以看到机构是否做出了正确的决策，输入和输出是什么，或许还可以看到哪个团队做出了最佳决策。

混合的启发式/算法管理以及决策制定将会在一些机构内形成

理想的管理团队能够汇集人们学习经验中的积极元素，并通过启发式的决策以及算法计算表达出来。这让每一个会议桌前的人都可以发声。这是主观和客观的混合体――试想柯克船长和斯波克博士――依据数据和其他内容一起做出决策。到了2021年，这种混合的情况将会以自动生成的数据故事的形式来启发和延展人们的观点，除了这以外谁知道还会发生什么呢？由电脑产生出来的阿凡达可展现数据和提供输入语言，这应该不断太牵强。

以上仅是笔者对BI未来的几点预测，当然也可能过于乐观或过于消极，其未来发展趋势或许也会因外部突发事件而带来变化。

篇8

【中图分类号】G434【文献标识码】B【论文编号】1009―8097(2010)04―0120―03

引言

在国际上,VR与仿真技术非常普遍与成熟。在远程协作的分布式VR与仿真系统方面,他们制定了一系列标准、协议和算法。在国外虚拟环境中的协同式训练系统也有研究,比较有代表性的是SecuReVi系统,它是利用MASCARET模型设计的虚拟环境中多人协同灭火的消防员训练系统,还有些远程医疗手术协作训练系统,这些系统多数是在研究阶段,成型产品极为少数。和一些发达国家相比,我国协同VR与仿真技术还有一定的差距,其应用也主要集中在军事院校和研究所,也取得了一定研究成果[1][2],特别是在分布式VR与仿真领域里,国内在这方面的研究也有所开展[3][4]。

由于教育培训软件的应用长期局限于平面的文字及图像表述,即使近年来动态图形图像表现形式大大提高了内容的表现效果,但仍无法真正满足人类视觉、听觉……甚至是感觉上的认同效应。因此,当前传统的CBT(计算机支持的教育培训体系,Computer Based Training)训练方式已在一定程度上无法满足高科技培训的需要,基于计算机虚拟现实仿真技术的协同式训练系统将视景仿真和协同工作的概念引入CBT中,它抛弃了传统的训练必须在真实的环境和场地下进行的观念;同时也克服了传统训练无法模拟某些现场环境的缺陷,如飞机上、地铁中、商厦里等,它使受训人员不用再冒着一定的危险、不用再在投入巨额的设备购买和场地布置的情况下就能参加训练。通过应用现代化的虚拟现实技术进行协同式训练系统的研发,将克服实际场地演练的诸多不足,不仅花费小,对环境没有污染,而且没有危险,是未来技能培训的主要手段之一[5][6]。系统在各种高危领域和应急处理场合有着广泛的应用,可应用于工厂企业、航空、地铁公司、社区、商店等大型场所的应急训练;还可用于部队演习;学校、研究所大型实验;网络游戏;远程医疗等。该系统的研究将推动计算机虚拟现实仿真技术的发展,促进了计算机科学在现实生活中的应用。本文以航空客舱乘务员应急处理训练为例,介绍基于虚拟现实的协同训练系统的设计过程、原理及关键技术的实现。

一系统描述

基于虚拟现实的协同训练系统是一个综合应用虚拟现实技术、网络通信技术、三维图形图像技术和数据库技术设计和开发的一个虚拟仿真训练软件,具有在虚拟仿真环境中进行多用户协同操作和基于知识库的智能评判功能特点。系统利用三维技术构建各种虚拟训练场景(如飞机、地铁等),多个用户在这样的虚拟仿真环境中,通过网络进行文字和语音的通信、相互合作完成一个训练任务。同时,系统提供任务的知识库进行操作过程的正确性判断和提示,并详细记录各个用户操作过程,提供专家进行评判(如图1所示)。系统采用了视景仿真、多用户协同、知识库与匹配策略的技术,并在训练过程中具有多感知性、实时性、互操作性以及真实临场性的特征,可广泛应用于特定环境下一个团队通过相互配合,相互协作来有效地完成训练任务

在此系统基础上,加入具体应用的环境(3D场景),利用系统接口和核心功能设计具体应用的驱动模块,形成具体应用的系统。如进行飞机客舱火灾应急处理训练,系统将装入一个飞机机舱的场景和训练角色,多人通过网络、视景等多种交互方式协同地进行飞机客舱火灾应急处理,形成了某一特定应用的协同式训练的应用系统。

基于虚拟现实的协同训练系统主要有如下应用特点:

1 基于虚拟现实的协同式训练系统,通过模拟现场的实际情况,从而提高实际操作人员对各种实际环境的协同处理能力。系统尤其适合于模拟高危领域的操作训练,如火灾、地震、防恐等;

2 克服了传统训练中实景再现困难、场地特殊、人员调度复杂等环境因素,适合机、地铁、闹市、商住大厦等情况较复杂地区的训练模拟;

3 降低对人员财物等的安全威胁,也便于人员时间上的安排与调度,减少人力、财力等各方开支,并且间接性地减少了对周围环境的污染。适合于要求团队组员同时在现场进行协同训练的场合,如远程医疗专家合诊、网络游戏;

4 利用计算机手段,实现训练模拟,运用多媒体的实现方式,提高人员训练热情和整体训练效果,因而也适用于原理或操作较枯燥的训练内容,如学校、研究所等实验仿真。

二系统实现原理

整个系统实现由三层结构组成(如图2所示)。底层是操作系统与开发API组成的支撑环境,中间层是由核心程序与接口组成的系统平台,顶层是三维场景模型与系统功能驱动组成的应用程序。

系统平台主要由三维场景子系统、协同通信子系统和训练管理子系统组成。其主要特点:将多用户协同处理计算机模拟的理念,具体应用到行业技能训练的领域中,并在训练过程中,采用了视景仿真、协同、知识库的技术。

(1) 三维场景子系统

三维场景子系统是用三维造型来模拟现实训练环境的一种实时渲染图形系统。系统完成的主要模块有模型导入、运动仿真、场景设置、碰撞检测等。

模型导入利用功能强大的三维造型软件,如3DS Max,MAYA制作三维模型,纹理以及动画等,然后输入至训练场景中,具体包括:3D对象导入、角色导入、动画导入、材质和纹理的设置、坐标设置、比例变换等等。运动仿真是对场景中人和物体运动的一种数学物理描述以及控制,它包括各种运动类型,如走、跑、转身、站立、蹲下、取物等等。场景设置主要是提供改变某些场景的参数,改善视觉效果,便于观察和响应不同的训练要求,具体包括:灯光设置、视角设置、环境设置、特殊效果设置(如火,烟雾)、声音设置、纹理材质设置、动态对象的位置、方向和比例设置、坐标设置等等。碰撞检测主要是防止物体间的相互干涉以及作为某些事件的触发器,由检测类型和检测算法二大部分组成。检测类型主要有视线范围检测(LOS line-of-sight)、三脚架法(TRIPOD)、凸块检测方法(BUMP)。LOS、TRIPOD、BUMP的算法主要是加入按一定规则分布的线段矢量,计算与干涉物体的交点,距离,方向以及设置回调函数。

(2) 同步通信子系统

协作通信系统完成的功能由语音通信、场景同步通信二大部分组成。

语音通信主要提供学员之间相互协调联络的通信平台,也是协同训练中对讲、交谈等的语音工具。

这里语音通信部分主要采用点对点(也可组播)的语音通信,是针对一个点实现话音的实时采集、处理、播放,同时可与其它点进行可靠的网络语音数据传送和接收。对于前者,采用Windows MDK的低层音频服务,因为低层音频服务中的回调机制为我们提供了音频数据,设备驱动程序控制音频设备在后成录音和放音的具体操作,通过回调机制,我们又可以检测到什么时候用完一个数据块,并及时传送下一个数据块,从而保证了声音的连续,有了这种单机上的实时采集、回放功能后,接下来的工作就是在网络上传送语音数据。在点对点网络传输方面,选择基于无连接的UDP协议,UDP用户数据报协议能够向若干台目标计算机发送数据,接收发自若干个源计算机的数据。在采集话音回放之前,一方面将自己的语音传给网络,另一方面接收网络传来的语音,具体是利用Windows Socket API实现的。

场景同步通信主要提供多用户之间场景一致的功能,它由服务器、会话、用户、网络消息和分布式对象组成。

多用户服务器是基于客户/服务器技术,所有用户之间的通信必须通过服务器。一个用户与其他用户交互必须连接到一个会话上,一个用户同时只能连接一个会话,并且只能与连接到同一会话的用户通信。用户有二个参数,一是用户名,二是用户ID,一个客户在连接或产生会话前必须设置用户名。网络消息是用户之间通信的主要方法,这个消息类似窗口消息,可以在消息中附带数据。分布式对象是另一个用户间传送信息的机制,它相关于场景中某一个实体,且按照一定规则分布到所有用户机上,分布式对象是类的一个实例,它有自己的属性,需要时可以通过网络通信来更新。同步通信技术借鉴了国外的DIS(分布式交互系统)和HLA(高层架构)等技术。

(3) 训练管理子系统

训练管理系统主要是用于处理训练相关的信息,它完成的功能有训练知识库、实时跟踪记录、冲突解决机制等。

训练知识库主要包括训练数据库、训练规则和匹配策略。训练数据库主要有学员信息、课程信息、训练信息等等。训练规则主要有角色定义与分配规则、评判规则、记分规则,其中评判规则包括动作执行者、动作间的关系、施加对象以及次数等等。匹配策略主要是有序无序的匹配、规则树的遍历。

实时跟踪记录实际上是对学员的操作流进行管理的一个模块,它主要有触发事件、操作信息收集、发送与接收(操作信息)和记录器组成。

冲突解决机制主要是多学员在协同训练中发生操作冲突时的一种消除机制。其中简单的方法是加锁解锁、延时的方法,比较高级的有优先级和拥有权的处理。

三系统应用示例

客舱火灾应急处理训练是利用协同训练平台开发的一个应用实例,主要是在模拟飞机机舱内协作完成灭火训练任务。这个训练任务描述如下:

客机平稳而正常地行驶着,乘客们安静地享受着舒适的空中之旅,舱内的乘务员出现在各自的位置上,此时,公共信息广播:此次航班由上海飞往北京,祝各位旅客旅途愉快。30秒后,前工作区的学员看到属于她的信息窗显示:附近有怪异的烟味,请速核查。并且她看到丝丝烟雾飘散。该学员先去查核哪里发生火情,确定是在壁橱的衣帽间,用手试探门的凉热,其信息窗口显示两级温度信息:门是凉的/门很烫手;该学员使用话机通知乘务长,并请求附近的乘务员速带灭火器材来协助,本人去驾驶舱拿应急斧,取来应急斧,在门上开一个小洞,来支援的乘务员拿海伦灭火器来了,对着洞口喷灭火剂,直至火灭,开门检查燃烧物,防止死灰复燃。最后把火灾的处理结果报告乘务长,由乘务长报告给机长。

该应用实例包括一个三维实例场景和一个实例驱动模型。三维实例场景就是飞机机舱、火、烟雾、角色及其他设施,驱动模型是具体应用的情节脚本,由灭火操作、协作规则、评判规则等许多事件构成的。应用实例系统主要界面如图3所示。

四结束语

在网络环境和多用户视景交互的支持下,人们可以通过交互设备,利用听觉、视觉、触觉在虚拟的环境中协作完成训练任务,从而形成一套具有“视景”和“协同”特色的训练软件。本文主要描述了一个基于虚拟现实的多用户协同训练系统的结构设计、技术架构、网络通信和应用示例。随着基于虚拟现实技术的CBT系统正在逐步取代过去单机、单一任务的CBT系统,将给计算机培训提供一种崭新的系统训练方式,能使许多特殊场合的训练变得非常方便,同时极大提高培训的效果。本系统中设计的技术和方法希望对于其他分布式训练系统的开发具有借鉴作用。

参考文献

[1] 庞津津,戴述贾.分布式系统仿真技术研究及其实现[J].火力与指挥控制, 2001,(1): 37-40.

[2] 洪津,张万军,谢庆华,陈明宏,王永健.虚拟维修训练系统发展综述及其关键技术探讨[J].理工大学学报(自然科学版),2000,(1):63-67.

[3] 王润岗,花传杰,唐科群,王艾萍.坦克车炮长协同训练仿真系统设计与实现[J].火力与指挥控制, 2008,(9):112-114.

[4] 袁海波,刘厚泉,吴雪峰.虚拟场景动态交互式可视化的研究[J].电脑与信息技术,2008,(6):7-9.

篇9

实践课程配套教材建设(1)2008年出版了《可编程逻辑器件应用实践》教材;(2)2009年编写的《EDA技术与实验》作为国家级“十一五”规划教材。该书修订版被列为校“十二五”规划教材，侧重FPGA设计理论及数字信号处理算法硬件实现上;(3)新编《EDA/SOPC应用实践》被列入校“十二五”规划教材。该教材针对应用型研究生的培养引入大量工程设计实例。

应用型实践教学基地的建设

我校电子设计自动化实践教学基地，2006年在教育部研究生创新基地建设资金的资助下初步建成。现有的25套计算机和30套康芯EDA/SOPC实验箱，可以完成基本的电子设计自动化实验。近年来，我们在原来基础平台的基础上，购置了Altera公司DE2-70实验板，建立了面向电气工程、控制工程、通信工程及仪器科学与技术领域电子设计自动化实验平台。该平台包括基于FPGA的电机闭环控制实验平台、基于SOPC的特征物体跟踪系统实验平台、基于SOPC的远程监控图像系统实验平台及基于FPGA的数据采集实验平台。上述四个实验平台可以完成下列实验内容。

1基于SOPC的特征物体跟踪系统实验特征物体的识别追踪包括对目标实现追踪，它是机器视觉、视频雷达和视觉导航的必要组成部分。这种追踪系统可以用于球类比赛中追踪拍摄球的运动，在公共场所的监控设备中自动锁定疑犯并报警，在博物馆等场所中锁定特定藏品在其位移超过阈值后给出警示，在运动中拍摄运动或静止物体(如航拍)中保持图像稳定，某些特定区域在有运动物体进入时监控系统产生报警信号并对进入监控区域的物体进行跟踪(例如交通检测系统和某些监控防护系统)等。基于SOPC实验箱的特征的物体跟踪系统实验原理如下:摄像头完成图像采集，将图像数据传输给DE2开发板，由FPGA中的摄像头接口逻辑对图像预处理，再由NiosII执行识别算法和控制算法，识别特征物体，并输出控制信号给两个伺服电机来调整摄像头方向，同时由VGA显示接口将捕捉到的图像在显示器上显示出来。

2基于FPGA的步进电机细分控制实验本实验是一种以FPGA为核心的新型集成式三相混合式步进电机驱动系统。采用正弦波细分驱动方案，以速度误差最小原则进行了最佳细分等级自动切换设计。该实验将控制器和驱动器全部集成在单一的FPGA芯片上。

3基于FPGA的远程监控机器人实验本系统在DE2开发板上构建了一个Web服务器，可以通过网络实时观察监控场所，并通过网络控制随意移动以实现全方位监控。该实验包括图像的实时采集、压缩，无线传输、Internet网络和GPRS无线网络向终端服务器传输图像数据等模块。

4基于FPGA的桌面弹球屏幕保护程序实验该实验通过FPGA芯片嵌入的程序可以控制计算机显示屏上的小球运动，还可以控制小球的尺寸。学生通过该实验可以掌握VGA显示的原理和视频D/A转换的原理及控制时序等内容。本实验的创意来自美国伊利诺伊州立大学香槟分校的数字系统课程ECE385的教学内容。该应用研究型实验覆盖了控制、电气、计算机和通信等多个学科内容。此外，2009年我们在实验平台上自行了设计一款性价比高且便于携带的电子设计自动化实验箱。该实验箱发放给学生，使他们在业余时间利用该实验箱学习电子设计自动化知识，并完成面向实际应用的设计任务。本实验箱的原理框图如图1所示，目前已在电子技术课程设计课程中使用。

与企业联合建立培训基地

篇10

中图分类号：TM文献标识码:B

1．变电设备检修仿真系统的主要功能及模块

1.1．主要功能

构建变电设备虚拟场景需要运用到数字化建模（即建立设备的正常、异常、故障和缺陷等三维实体模型）技术，模型建立质量和数量直接关系到整个系统的优劣，本系统中对变电站的所有一次设备如变压器、断路器、隔离开关、互感器、电抗器、电容器等建立了模型，由此形成了设备建模库，设备库还可对各设备正常和非正常（缺陷）状态的具体细节进行描述。仿真系统要求能在计算机上动态模拟变电设备安装和检修过程，并实现人机交互装配，直观和准确地表达其内部结构、各零部件空间关系，零部件浏览和分析、变电设备缺陷仿真、检修人员技能综合测试以及自动评分等等。系统的主要功能如图1所示。

图1变电设备仿真检修系统的主要功能

变电设备检修仿真系统采用多媒体、三维图像仿真，集图片、图像、图形、视频、文字等为一体，整个变压器动态装配过程均以3D形式投影在大屏幕上，逼真地再现变电站现场设备的动作过程和设备运行状态。

本检修仿真系统基于DirectX9.0c来构建3D图形引擎，开发虚拟现实仿真系统，通过MFC处理系统用户界面，视景平台、动态装配仿真、零部件数字化建模、零部件缺陷仿真、检修技能测试等核心内容都是用C++来实现。

1.2.功能模块

变电检修仿真中心通过VR平台，按照仿真数据仓库中检修仿真算法，分设备类型、生产厂家、型号建立变电设备样本模型库；模拟各类设备的常见故障和解决方案；分常规检修和故障检修两种方式模拟变电设备的检修过程。仿真中心通过算法接口和输入输出接口接收用户控制命令和返回结果数据。

检修训练中心提供人机交互环境，用户使用各类终端设备（鼠标键盘等），通过输入输出接口在虚拟现实的界面发出各类检修操作命令，并通过算法接口与检修仿真中心进行数据交互，完成各类训练动作的执行。为检修人员的培训提供演示和交互操作两种培训方式。

管理监控中心完成各类设备部件划分、部件逻辑关系及其拆装顺序定义和维护；故障知识库中故障现象、故障原因、检修推荐方案的定义和维护；依照《作业指导书》以及《现场作业工序工艺标准卡》等技术标准对检修流程进行设定或变更重组；并完成培训档案建立、培训题库建立、培训过程监视控制、培训过程回放、培训考核评估以及培训各类绩效指标的统计分析。它通过各类算法接口在VR平台上完成对变电检修仿真中心各类仿真模型的管理以及与变电检修控制中心培训管理人员的命令、指令、数据交互。

2.故障分析功能

2.1.故障信息

系统通过在线监测系统以及状态检修系统的联机分析，对故障的信息提供从故障的设备及其故障部件、部位的外部现象、到故障的变化过程、再到故障相关各类数据的全方位支持，为故障的分析和诊断提供从表面到数据的支持。

如变压器过热性故障，系统除了从设备模型给出温度计的读数外，还可以提供一个连续时间段温度的变化情况，并且通过在线监测系统提供各时刻对应油中C2H6、C2H4、H2、C2H2，CO、CO2等气体含量数据。

2.1.故障诊断及检修方法

系统根据故障信息，结合状态检修系统、生产管理系统、在线监测系统的综合分析情况，给出故障的可能原因以及对应的检修对策指导。如变压器过热性故障，当存在C2H6、C2H4增长较快，可能有H2和C2H2，CO和CO2增长不明显的现象，导致该故障的原因可能就是变压器铁心短路，在系统图形界面上就会输出铁心短路的外部状况。用户可以点击相应的检修策略指导，系统会采用动画及互动的方式提供处理铁心短路情况的典型检修方法。

3．变电设备仿真检修系统的特征模型

在变电设备仿真检修系统总体设计初步完成后，即可进行特征模型设计。根据已经确定的方案和主要数据，按技术任务要求进行。变电设备的内部结构复杂，零部件多为不规则几何体，要实现虚拟的装配过程必须先对基本的零件建立三维数字模型。装配之前要进行总体规划，确定各级子装配和各零件的合理安装顺序。还要结合变电站的实际安装程序来安排虚拟场景中各零件或子装配的装配顺序。

以变压器为例说明，本仿真系统将变压器整体结构划分为六部分：总装、油箱、绝缘、引线、铁心、线圈，各部分通过相应的构件连接起来，其主体结构划分如图2所示。

图2变压器结构特征模型

变压器型号用于描述实体的几何形状，是造型中最主要的信息之一。主要参数包含变压器的额定电压，额定容量，连接组别，窗体的长、宽、高等信息。部件间的装配特征用于表达变压器结构的装配关系以及在装配过程中所需信息。构件间关系具有油箱、绝缘、引线、铁心、线圈等结构间的安装定位关系等。

4．基于虚拟现实的动态仿真流程

为了便于清楚地观察装配体结构及装配顺序，需要增加与虚拟世界的交互功能。而动画给了人们一个巨大的空间。用户在进入装配场景后，在任意位置点击鼠标，动态装配过程即呈现在窗口中。基于虚拟现实技术实现动画的流程如图3。

5．系统实现技术方案

5.1．系统拓扑结构

本系统采用B/S的体系结构，系统的核心包含一个业务主机（包括应用服务器和WEB服务器的功能）和一个数据库服务器，包含若干客户机、网络设备等等。

客户机中包括教员机和学员机，教员机通过与业务主机的交互完成对学员机下达各类控制命令，学员机接收并完成这些任务，同时操作过程同样通过与业务主机的交互进行数据和逻辑的通信。

5.2．平台软件

操作系统：根据实际选用的虚拟现实技术平台选用对应的操作系统。

数据库系统：本项目数据库系统有IBM DB2、Oarcle和MS SQL Server2005三种选择，建议本系统采用Oarcle 9i数据库。用于提供高效、海量的数据存储，建立数据仓库为虚拟现实技术的实现和数据分析提供基础。

中间件软件：采用JBoss中间件，用于提供web服务。

商业智能平台：报表工具采用eclipse birt；OLAP工

具采用mondrian，提供数据统计、分析和报表图标展现功能。

ETL工具：采用oracle ODI。用于完成与其他电力信息系统的数据同步。

5.3．虚拟现实技术

虚拟现实技术（Virtual Reality），又称灵境技术，是90年代为科学界和工程界所关注的技术。它的兴起，为人机交互界面的发展开创了新的研究领域；为智能工程的应用提供了新的界面工具；为各类工程的大规模的数据可视化提供了新的描述方法。这种技术的特点在于，计算机产生一种人为虚拟的环境，这种虚拟的环境是通过计算机图形构成的三度空间，或是把其它现实环境编制到计算机中去产生逼真的"虚拟环境"，从而使得用户在视觉上产生一种沉浸于虚拟环境的感觉。这种技术的应用，改进了人们利用计算机进行多工程数据处理的方式，尤其在需要对大量抽象数据进行处理时；同时，它在许多不同领域的应用，可以带来巨大的经济效益。

虚拟现实系统主要由以下模块构成

①检测模块：检测用户的操作命令，并通过传感器模块作用于虚拟环境。②反馈模块：接受来自传感器模块信息，为用户提供实时反馈。③传感器模块：一方面接受来自用户的操作命令，并将其作用于虚拟环境；另一方面将操作后产生的结果以各种反馈的形式提供给用户。④控制模块：对传感器进行控制，使其对用户、虚拟环境和现实世界产生作用。⑤建模模块：获取现实世界组成部分的三维表示，并由此构成对应的虚拟环境。

虚拟现实系统开发平台的核心是引擎，它具有四个方面的接口，分别是算法接口、模型贴图输入接口、硬件辅助设备接口和硬件主设备接口。虚拟现实系统开发平台通过这些底层接口向所有上层软件提供强大的功能支持。

6．数据存储及整合技术

6.1．数据存储

建立物理数据仓库的存储；提供集中的数据仓库管理界面来控制、监测和管理数据仓库的操作；为主题分析和决策支持应用提供快速、准确的数据服务。

6.2．数据整合

ETL：包括数据采集、清洗、转换、汇总、加载，数据加载到数据仓库中；建立数据仓库元数据中心存储；Webservice：通过XML交换数据，使系统之间即可靠的交换数据，又降低了系统之间的耦合程度。

6.3．数据仓库管理

包括元数据管理、ETL管理、数据复制与备份管理、数据安全管理等等

7．数据分析技术

7.1．数学建模、数据挖掘

采用三比值法、TD图法、电研法、神经网络算法等有效的诊断算法进行故障诊断；利用时间序列神经网络模型的非线性映射能力和学习能力来预测设备的检修状态；

7.2．商务智能平台