多媒体图像处理技术论文

发布时间：2023-12-09 20:35

多媒体图像处理技术论文

　　多媒体教育应用的重大意义及发展趋势
　　[日期：2005-09-02] 来源：中央电化教育馆作者： [字体：大中小]

　　一、多媒体教育应用的重大意义

　　自进入九十年代以来，多媒体技术迅速兴起、蓬勃发展，其应用已遍及国民经济与社会生活的各个角落，正在对人类的生产方式、工作方式乃至生活方式带来巨大的变革。特别是由于多媒体具有图、文、声并茂甚至有活动影象这样的特点，所以能提供最理想的教学环境，它必然会对教育、教学过程产生深刻的影响。这种深刻影响可以用一句话来概括：多媒体技术将会改变教学模式、教学内容、教学手段、教学方法，最终导致整个教育思想、教学理论甚至教育体制的根本变革。多媒体技术之所以对教育领域有如此重大的意义，是由于多媒体技术本身具有许多对于教育、教学过程来说是特别宝贵的特性与功能，这些特性与功能是其他媒体(例如幻灯、投影、电影、录音、录像、电视等)所不具备或是不完全具备的。首先应该说明一点：这里所说的多媒体技术是以计算机为中心的多媒体技术。在前几年的一些书籍中曾提到过多媒体组合教学，那种多媒体的概念不一样，那只是将几种媒体加以简单的组合(例如把幻灯、投影、录音、录相加以组合)。今天的多媒体技术则是以计算机为中心，把语音处理技术、图象处理技术、视听技术都集成在一起，而且把语音信号、图象信号先通过模数转换变成统一的数字信号，这样作以后，计算机就可以很方便地对它们进行存储、加工、控制、编辑、变换，还可以查询、检索。显然，这与原来把多种形式媒体组合在一起是完全不一样的，因为它是通过计算机把几种处理不同媒体信息的技术集成在一起。集成方法就是通过模数转换，全变成数字；而且为了便于加工，便于传输，还要进行数据压缩，传到指定地点以后再还原，有一整套复杂的技术通过计算机来实现。所以现在的多媒体技术，实际上是以多媒体计算机来体现的，下面我就从多媒体计算机四个方面的特性与功能来说明它对教育应用的重大意义。

　　1、多媒体计算机的交互性有利于激发学生的学习兴趣和认知主体作用的发挥
　　人机交互、立即反馈是计算机的显著特点，是任何其他媒体所没有的。多媒体计算机进一步把电视机所具有的视听合一功能与计算机的交互功能结合在一起，产生出一种新的图文并茂的、丰富多彩的人机交互方式，而且可以立即反馈。这样一种交互方式对于教学过程具有重要意义，它能够有效地激发学生的学习兴趣，使学生产生强烈的学习欲望，从而形成学习动机。交互性是计算机和多媒体计算机所独有的，正是因为这个特点使得多媒体计算机不仅是教学的手段方法，而且成为改变传统教学模式乃至教学思想的一个重要因素。

　　大家知道，在传统的教学过程中一切都是由教师决定。从教学内容、教学策略、教学方法、教学步骤甚至学生做的练习都是教师事先安排好的，学生只能被动地参与这个过程，即处于被灌输的状态。而在多媒体计算机这样的交互式学习环境中学生则可以按照自己的学习基础、学习兴趣来选择自己所要学习的内容，可以选择适合自己水平的练习，如果教学软件编得更好，连教学模式也可以选择，比如说，可以用个别化教学模式，也可以用协商讨论的模式。使计算机象学习伙伴一样和你进行讨论交流。也就是说，学生在这样的交互式学习环境中有了主动参与的可能，而不是一切都由教师安排好，学生只能被动接受。按认知学习理论的观点，人的认识不是外界刺激直接给予的，而是外界刺激与人的内部心理过程相互作用产生的，必须发挥学生的主动性、积极性，才能获得有效的认知，这种主动参与性就为学生的主动性、积极性的发挥创造了很好的条件，即能真正体现学生的认知主体作用。

　　2、多媒体计算机提供外部刺激的多样性有利于知识的获取与保持
　　多媒体计算机提供的外部刺激不是单一的刺激，而是多种感官的综合刺激。这对于知识的获取和保持，都是非常重要的。实验心理学家赤瑞特拉（Treicher）作过两个著名的心理实验，一个是关于人类获取信息的来源，就是人类获取信息到底主要通过哪些途径。他通过大量的实验证实：人类获取的信息83%来自视觉，11%来自听觉，这两个加起来就有94%。还有3.5%来自嗅觉，1.5%来自触觉，1%来自味觉。多媒体技术既能看得见，又能听得见，还能用手操作。这样通过多种感官的刺激获取的信息量，比单一地听老师讲课强得多，信息和知识是密切相关的，获取大量的信息就可以掌握大量的知识。他还作了另一个实验，是关于知识保持即记忆持久性的实验。结果是这样的：人们一般能记住自己阅读内容的10%，自己听到内容的20%，自己看到内容的30%，自己听到和看到内容的50%，在交流过程中自己所说内容的70%。这就是说，如果既能听到又能看到，再通过讨论、交流用自己的语言表达出来，知识的保持将大大优于传统教学的效果。这说明多媒体计算机应用于教学过程不仅非常有利于知识的获取，而且非常有利于知识的保持。

　　3、超文本功能可实现对教学信息最有效的组织与管理
　　超文本(Hypertext)是按照人脑的联想思维方式非线性地组织管理信息的一种先进技术。如果所管理的信息不仅是文字，而且还包含图形、图象、声音等其它媒体信息，那就成为一个超媒体系统，换句话说，超媒体就是多媒体加超文本。事实上目前的绝大多数多媒体系统都是采用超文本方式对信息进行组织与管理。因此在一般情况下，也可以对超媒体系统与多媒体系统不加区分，即把超文本看作是多媒体系统的一种特有功能。

　　如果按超文本方式组织一本书，就和传统的文件或印刷的书籍完全不同，这时的正文(文章、段落、或一句话、一个词)都按相互间的联系被组织成正文网。这本书无所谓第一页和最后一页，从哪段正文开始阅读，以及接下来读什么都由读者的意愿来决定。选择下一段正文的依据不是顺序，也不是索引，而是正文之间的语义联系。认知心理学的研究表明，人类思维具有联想特征。人在阅读或思考问题过程中经常由于联想从一个概念或主题转移到另一个相关的概念或主题。所以按超文本的非线性、网状方式组织管理信息和按传统文本的线性、顺序方式组织管理信息相比较，前者更符合人类的思维特点和阅读习惯。

　　超文本之所以具有上述优越性是由其结构特征决定的，超文本的基本结构由节点(node)和链(link)组成。节点用于存储各种信息，节点内容可以是文本、语音、图形、图象或一段活动影象;节点大小可以是一个窗口也可以是一帧或若干帧所包含的数据，链则用来表示各节点(即各种信息)之间的关联。节点和链均有多种不同的类型因而形成各种不同的多媒体系统。

　　利用多媒体的超文本功能实现对教学信息的组织与管理，其优越性在于：

　　(1)可按教学目标的要求，把包含不同媒体信息的各种教学内容组成一个有机的整体。在传统的印刷教材中，有关语音和活动影象的内容无法与文字内容组成一体化的教材，只能以教科书、录音带、录像带三者各自独立的形式，分别出版。显然，这样的教科书，其内容必然是单调、枯燥的，与超文本方式组织的图、文、音、像并茂的丰富多采的电子教材不可同日而语。

　　(2)按教学内容的要求，把包含不同教学要求的各种教学资料组成一个有机的整体。教学过程的每个教学单元均包含课文、练习、习题、提问、测验、对测验的解答及相应的演示或实验，把这些教学内容相关而教学要求不同的教学资料有机地组织在一起，无疑对课堂教学、课外复习或自学都是大有好处的。而按传统文本的线性、顺序方式来组织、管理教学内容绝不可能做到这一点。

　　(3)可按学生的知识基础与水平把相关学科的预备知识及开阔视野所需要的补充知识组成有机的整体。因材施教是优化教学过程的重要目标之一，但由于学生个体之间差异很大，要在传统印刷教材中同时满足基础较差学生、一般学生和优秀学生对教学内容的不同需求是做不到的，而在多媒体电子教科书中这却是轻而易举的事情，只要利用超文本功能设置和预备知识有关的热键以及和补充知识有关的热键即可。

　　4、多媒体计算机可作为认知工具实现最理想的学习环境
　　从八十年代中期到九十年代初，计算机作为工具在教育领域被广泛应用主要有两个方面：一是作为数据处理工具（如各种数据库和电子表格处理软件的应用）；二是作为文字处理工具（如WPS和WORD软件）。近年来，计算机在教育领域作为工具应用的一大发展，是作为教学过程中一种有效的认知工具。

　　众所周知，在过去的廿年中，强调刺激－反应并把学习者看作是对外部刺激作出被动反应即作为知识灌输对象的行为主义学习理论，已经让位给强调认知主体的内部心理过程并把学习者看作是信息加工主体的认知学习理论。随着心理学家对人类学习过程认知规律研究的不断深入，认知学习理论的一个重要分支枣建构主义学习理论在西方逐渐流行。由于多媒体计算机和网络通信技术所具有的多种特性特别适合于实现建构主义学习环境，换句话说，多媒体计算机和网络通信技术可以作为建构主义学习环境下的理想认知工具，能有效地促进学生的认知发展，所以随着多媒体计算机和Internet网络的飞速发展，建构主义学习理论正愈来愈显示出其强大的生命力，并在世界范围内日益扩大其影响。

　　下面我们就从“学习的含义”（即关于“什么是学习”）与“学习的方法”（即关于“如何进行学习”）这两个方面简要说明建构主义学习理论的基本内容。

　　(1)、关于学习的含义

　　学习是获取知识的过程。建构主义认为，知识不是通过教师传授得到，而是学习者在一定的情景即社会文化背景下，借助其他人（包括教师和学习伙伴）的帮助，利用必要的学习资料，通过意义建构的方式而获得。由于学习是在一定情景即社会文化背景下，借助其他人的帮助即通过人际间的协作活动而实现的意义建构过程，因此建构主义学习理论认为“情景”、“协作”、“会话”和“意义建构”是学习环境中的四大要素或四大属性。

　　“情景”：学习环境中的情景必须有利于学生对所学内容的意义建构。这就对教学设计提出了新的要求，也就是说，在建构主义学习环境下，教学设计不仅要考虑教学目标分析、学习者特征分析以及媒体的选择与利用，还要考虑有利于学生建构意义的情景的创设问题，并把情景创设问题看作是教学设计的最重要内容之一。

　　“协作”：协作发生在学习过程的始终。协作对学习资料的搜集与分析、假设的提出与验证、学习成果的评价直至意义的最终建构均有重要作用。

　　“会话”：会话是协作过程中的不可缺少环节。学习小组成员之间必须通过会话商讨如何完成规定的学习任务的计划；此外，协作学习过程也是会话过程，在此过程中，每个学习者的思维成果（智慧）为整个学习群体所共享，因此会话是达到意义建构的重要手段之一。

　　“意义建构”：这是整个学习过程的最终目标。所要建构的意义是指：事物的性质、规律以及事物之间的内在联系。在学习过程中帮助学生建构意义就是要帮助学生对当前学习内容所反映事物的性质、规律以及该事物与其它事物之间的内在联系达到较深刻的理解。这种理解在大脑中的长期存储形式就是关于当前所学内容的认知结构，也称“图式”。

　　(2)、关于学习的方法

　　建构主义提倡在教师指导下的以学习者为中心的学习，也就是说，既强调学习者的认知主体作用，又不忽视教师的主导作用。教师是意义建构的帮助者、促进者，而不是知识的提供者与灌输者。学生是信息加工的主体、是意义的主动建构者，而不是知识的被动接受者和被灌输的对象。

　　学生要成为意义的主动建构者，就要求学生在学习过程中从以下几个方面发挥主体作用：

　　①要用探索法、发现法去建构知识的意义；

　　②在建构意义过程中要求学生主动去搜集并分析有关的数据和资料，对所学习的问题要提出各种假设并努力加以验证；

　　③要求学生把当前学习内容所反映的事物尽量和自己已经知道的事物相联系，并对这种联系加以认真的思考。“联系”与“思考”是意义构建的关键。如果能把联系与思考的过程与协作学习中的协商过程（即交流、讨论的过程）结合起来，则学生建构意义的效率会更高、质量会更好。协商有“自我协商”与“交际协商”（也叫“内部协商”与“社会协商”）两种，自我协商是指自己和自己辩论什么是正确的；交际协商则指学习小组内部相互之间的讨论与辩论。

　　教师要成为学生建构意义的帮助者，就要求教师在教学过程中从以下几个面发挥主导作用：

　　①激发学生的学习兴趣，帮助学生形成学习动机；

　　②通过创设符合教学内容要求的情景和提示新旧知识之间联系的线索，帮助学生建构当前所学知识的意义。

　　③为了使意义建构更有效，教师应在可能的条件下，组织协作学习（开展讨论与交流），并对协作学习过程进行引导使之朝有利于意义建构的方向发展。引导的方法包括：提出适当的问题以引起学生的思考和讨论；在讨论中设法把问题一步步引向深入以加深学生对所学内容的理解；要启发诱导学生自己去发现规律、自己去纠正和补充错误的或片面的认识，切忌直接对学生进行灌输。

　　下面我们通过两个实际课例说明如何把多媒体计算机及网络通信技术作为认知工具以实现这样的学习环境。

　　课例1：澳大利亚“门尼·彭兹中心小学”所作的试验
　　试验班为六年级，有30名学生，教师名字叫安德莉亚，当前要进行的教学内容是关于奥林匹克运动会。像往常一样，安德莉亚鼓励她的学生围绕教学内容拟定若干题目（例如奥运会的历史和澳大利亚在历次奥运会中的成绩等问题），确定媒体在解决这些问题的过程中所起的作用，并要求学生用多媒体形式直观、形象地把自己选定的问题表现出来。经过一段时间在图书馆和Internet网上查阅资料以后，其中米彻尔和沙拉两位小朋友合作制作了一个关于奥运会历史的多媒体演示软件。在这个软件向全班同学播放以前，教师提醒大家注意观察和分析软件表现的内容及其特点。播放后立即进行讨论。一位学生说，从奥运会举办的时间轴线，他注意到奥运会是每4年召开一次。另一位学生则提出不同的看法，他认为并不总是这样，例如1904年、1906年和1908年这几次是每两年举行一次。还有一些学生则注意到在时间轴线的1916，1940和1944这几个年份没有举行奥运会，这时教师提出问题：“为什么这些年份没有举办奥运会？”，有的学生回答，可能是这些年份发生了一些重大事情，有的学生则回答发生了战争，有的则更确切地指出1916年停办是由于第一次世界大战，1940和1944年停办是由于第二次世界大战。经过大家的讨论和协商，决定对米彻尔和沙拉开发的多媒体软件作两点补充：①说明第一、二次世界大战对举办奥运会的影响；②对奥运历史初期的几次过渡性（两年一次）奥运会作出特别的解释。这时候有位小朋友提出要把希特勒的照片通过扫描放到时间轴上的1940年这点上，以说明是他发动了二次大战。教师询问全班其他同学：“有无不同意见？”沙拉举起手，高声回答说：“我不同意用希特勒照片，我们应当使用一张能真实反映二次大战给人民带来巨大灾难（例如大规模轰炸或集体屠杀犹太人）的照片，以激起人们对希特勒的痛恨”。教师对沙拉的发言表示赞许。

　　从以上课例可以看到，教师为这个教学单元进行的教学设计主要是让学生用多媒体计算机建立一个有关奥运会某个专题（例如奥运历史或澳大利亚在历次奥运中的成绩）的情景，以激发学生的学习兴趣和主动探索精神，再通过展开讨论，把对有关教学内容的理解逐步引向深入。在这个课例中，学生始终处于主动探索、主动思考、主动建构意义的认知主体位置，但是又离不开教师事先所作的、精心的教学设计和在协作学习过程中画龙点睛的引导；教师在整个教学过程中说的话很少，但是对学生建构意义的帮助却很大，充分体现了教师主导作用与学生主体作用的结合。整个教学过程围绕建构主义的情景、协作、会话和意义建构这几个认知环节自然展开，而自始至终又是在多媒体计算机环境下进行的（同时用Internet实现资料查询)，所以上述例子是以多媒体计算机和Internet网作为认知工具实现建构主义学习环境的很好范例。

　　课例2：澳大利亚“伟治·柏克小学”所作的试验
　　试验班由三年级和四年级的学生混合组成，主持试验的教师叫玛莉，要进行的教学内容是自然课中的动物。玛莉为这一教学单元进行的教学设计主要是，让学生自己用多媒体计算机设计一个关于本地动物园的电子导游，从而建立一个有利于建构“动物”概念的情景。玛莉认为这种情景对于学生非常有吸引力，因而能有效地激发起他们的学习兴趣。她把试验班分成若干小组，每个小组负责开发动物园中某一个展馆的多媒体演示。玛莉让孩子们自己选择：愿意开发哪一个展馆，愿意选哪一种动物；是愿意收集有关的动物图片资料，还是愿意为图片资料写出相应的文字说明；或是直接用多媒体工具去制作软件，都由孩子们自己选择。然后在此基础上组成不同的学习小组。

　　这样，每个展馆就成为学生的研究对象，孩子们都围绕自己的任务努力去搜集材料。例如，他们到动物园的相应展馆去实地观察动物的习性、生态，到图书馆和Internet网上去查询有关资料，以获取动物图片和撰写说明。在各小组完成分配的任务后，玛莉组织全试验班进行交流和讨论。这种围绕一定情景进行自我探索的学习方式，不仅大大促进了学生学习的自觉性，充分体现了学生的认知主体作用，而且在此基础上开展的协作学习，只要教师引导得法将是加深学生对概念理解、帮助学生建构知识意义的有效途径。例如，在全班交流过程中演示到“袋鼠”这一动物时，玛莉向全班同学提出一个问题：“什么是有袋动物？除了袋鼠有无其它的有袋动物？”有些学生举出“袋熊”和”卷尾袋鼠“。于是玛莉又让学生们围绕这三种有袋动物的异同点进行讨论，从而在相关背景下，锻炼与发展了儿童对事物的辨别、对比能力。这是利用多媒体计算机和Internet网络作为认知工具，实现建构主义学习环境，从而有效地帮助学生完成对当前所学内容的意义建构并促进学生认知能力发展的又一范例。

　　二、多媒体教育应用的发展趋势
　　综合近年来国外多种教育技术杂志(如ET,ETS,EMI,JRCE,AJDE.....)上所刊登的主要论文，以及历届“ED_MEDIA”世界大会(World Conference on Educational Multimediaand Hypermedia,即“教育多媒体与超媒体”世界大会，简称ED_MEDIA世界大会，这是国际上每年召开一次的规模最大的有关多媒体教育应用的国际会议)上所发表的基本观点，可以看出当前多媒体教育应用有以下几个值得注意的发展趋势：

　　1.多媒体技术与网络通信技术的结合
　　1995年末，在国际信息界有一件最引人注目的大事，就是美国SUN公司在Internet上推出了”WWW浏览器HotJava”，这是SUN公司用Java语言开发的一种全新的可动态执行的浏览器。其突出特点是具有动画功能，可向用户提供超文本格式的图形、图像、语音、动画与卡通等多种媒体信息；并能把静态文档变成可动态执行的代码，这就彻底改变了Internet浏览器只能用来查询检索Internet网上信息的状况，为Internet的教育应用开辟了新的广阔前景，这是因为HotJava的动态可执行特性无异于赋给用户一种远程交互的功能。例如，一个用户可以利用HotJava编写一段Java应用程序以实现仿真化学反应的页面，而其它的3W用户只要使用HotJava浏览器就不仅可以看到这个仿真页面，还可以与之进行交互(例如可改变该化学反应过程中的某些参数以观察不同的反应过程和结果)。利用HotJava的这种动态可执行特性用户在检索到某些重要文献或教学资料时，不仅能看到静止页面还可通过点击某个图标或热键而看到图文声并茂的彷真实验或算法执行过程的直观演示。显然，这样一种交互功能和用第一代Internet浏览器(如Mosaic和Netscape)只能观看静态页面的效果相比是有本质不同的，它对于教育应用(尤其是远距离教育应用)具有特别重要的意义。可以说，HotJava的出现不仅是Internet浏览器的重大革新，也为多媒体技术与网络通信技术的结合找到了最理想的结合点：从此基于Internet网的多媒体教育应用就日益发展起来(今年6月于美国波士顿召开的ED_MEDIA世界大会上，在121篇大会交流的多媒体教育应用论文中基于3W服务器和HotJava以实现多媒体技术与网络通信技术相结合的教育应用论文共有七篇)。目前不仅西方发达国家在大力开发基于Internet的多媒体教育应用，就是台湾、香港等地区也在这方面投入相当多的人力和物力(当前台湾教育技术界的主要力量差不多都已投向这一研究领域)。这是多媒体教育应用中十分值得引起我们重视的一个新趋势，也是当前发展最快的一个趋势，我们必须迎头赶上去。

　　2、多媒体技术与仿真技术的结合
　　多媒体计算机和仿真技术结合可以产生一种强烈的幻觉，使得置身其中的人全身心地投入到当前的虚拟现实世界中，并对其真实性丝毫不产生怀疑，通常把这种技术称之为“虚拟现实”(VirtualReality,简称VR)。换句话说，虚拟现实是由多媒体技术与仿真技术相结合而生成的一种交互式人工世界，在这个人工世界中可以创造一种身临其境的完全真实的感觉。要进入虚拟现实的环境通常需要戴上一个特殊的头盔(head_mounted display)，他可以使你看到并感觉到计算机所生成的整个人工世界。为了和虚拟环境进行交互，还需要戴上一副数据手套——它使穿戴者不仅能感知而且能操作虚拟世界中的各种对象。

　　由于设备昂贵，目前VR技术还主要是应用于少数高难度的军事和医疗模拟训练以及一些研究部门，但是在教育与训练领域VR技术有不可替代的非常令人鼓舞的应用前景，所以这一发展趋势也应引起我们的注意。例如，达特茅斯医学院所开发的一种“交互式多媒体虚拟现实系统”，可以使医务工作者体验到并学习到如何对各种战地医疗的实际情况做出反应。利用该系统的实习者可以感受到由计算机仿真所产生的各种伤病员的危险症状，实习者可以从系统中选择某种操作规程对当前的伤病情况进行处理并可立即看到这种处理方式所产生的后果。为了使实习者获得更深刻的体验，系统还可仿真各种外科手术，其内容包括一般的开刀直至复杂的人体器官替换。这种虚拟环境使医学院的大学生不必冒任何医疗事故的风险就可以反复实习病房中的各种实际操作，并可尝试选择不同的技术处理方案以检验自己的判断是否正确，和进行某种技能的训练。

　　VR技术在教育中应用的另一个例子是创建一种虚拟的物理实验室。物理学按其本身的性质提出了许多“如果……将会怎样”的问题，这些问题最好通过直接观察物理作用力对各种客体的作用效果来进行探索。休斯顿大学和NASA(美国国家航空和宇航局)约翰逊空间中心的研究人员建造了一种称之为“虚拟物理实验室”的系统，利用该系统可以直观地研究重力、惯性这类物理现象。使用该系统的学生可以做包括万有引力定律在内的各种实验，可以控制、观察由于改变重力的大小、方向所产生的种种现象，以及对加速度的影响。这样，学生就可以获得第一手的感性材料(直接经验)，从而达到对物理概念和物理定律的较深刻理解。

　　VR技术在化学教学中也取得了显著效果。北卡罗莱纳大学的科学家们已经研制了一种可以让用户用手操纵分子运动的VR系统。用户戴上头盔并通过数据手套进行反馈控制，可以使分子按某种方式结合在一起。不难看出，这种VR系统不仅在教学上有重要意义(例如可直接观察到蛋白质的分子结构)，而且在科学研究上也有重大的价值，因为按某种新方式结合在一起的分子结构很有可能是治疗某种疾病的新药，或者是工业上所需要的某种特殊材料。

　　随着对多媒体技术和仿真技术研究的深入，实现“虚拟现实”的理论方法也有很大发展。原来应用VR离不开昂贵的专用硬件或辅助设备(如头盔、数据手套、高分辨率的图形工作站等)，近年来这种情况开始有所改变。例如在今年6月召开的ED-MEDIA世界大会上，出现了一种全新的称作“QTVR”(快速虚拟)的系统。这种系统已实际应用于学习城市的设计与规划，其优异的性能价格比令人惊叹！QTVR技术与普通VR技术在使用的仿真原理上有很大不同：它不是利用头盔和数据手套这类硬件来产生幻觉，而是使用360度全景摄影技术所拍摄的高质量图象来生成逼真的虚拟情景。因此它允许用户在Windows操作系统或是Macintosh微机的操作系统支持下，在普通微机上(无需用高档的图形工作站)只利用一只鼠标和一个键盘(无需戴头盔和数据手套)就能真实地感受到和VR技术中一样的虚拟情景。

　　学习城市设计与规划的学生利用QTVR系统可以创建一座逼真的虚拟城市，当学生改变城市场景的视图时(例如向左或向右，朝上看或朝下看，摄像机头向目标移近或移远等)，被观察的场景仍能正确保持并能使人产生环绕该城市浏览观光的真实幻觉。与此同时，城市中的各种物理实体(如建筑物、道路、桥梁、树木、交通工具和地形等等)可以用鼠标任意拾取并进行操纵(例如使其旋转，以便从不同角度进行观察，并且还可以进入到建筑物内部的各个房间去观看)。

　　更令人难以置信的是，由于采用了先进的图象压缩算法，在QTVR系统中，用来表征城市某个虚拟场景的360度高质量全景照片的存储容量竟

求一篇多媒体技术论文

　　多媒体图像压缩技术
　　姓名:Vencent Lee
　　摘要：多媒体数据压缩技术是现代网络发展的关键性技术之一。由于图像和声音信号中存在各种各样的冗余，为数据压缩提供了可能。数据压缩技术有无损压和有损压缩两大类，这些压缩技术又各有不同的标准。
　　一、多媒体数据压缩技术
　　仙农(C．E．Shannon)在创立信息论时，提出把数据看作是信息和冗余度的组合。早期的数据压缩之所以成为信息论的一部分是因为它涉及冗余度问题。而数据之所以能够被压缩是因为其中存在各种各样的冗余；其中有时间冗余性、空间冗余性、信息熵冗余、先验知识冗余、其它冗余等。时间冗余是语音和序列图像中常见的冗余，运动图像中前后两帧间就存在很强的相关性，利用帧间运动补兴就可以将图像数据的速率大大压缩。语音也是这样。尤其是浊音段，在相当长的时间内(几到几十毫秒)语音信号都表现出很强的周期性，可以利用线性预测的方法得到较高的压缩比。空间冗余是用来表示图像数据中存在的某种空间上的规则性，如大面积的均匀背景中就有很大的空间冗余性。信息熵冗余是指在信源的符号表示过程中由于未遵循信息论意义下最优编码而造成的冗余性，这种冗余性可以通过熵编码来进行压缩，经常使用的如Huff-man编码。先验知识冗余是指数据的理解与先验知识有相当大的关系，如当收信方知道一个单词的前几个字母为administrato时，立刻就可以猜到最后一个字母为r，那么在这种情况下，最后一个字母就不带任何信息量了，这就是一种先验知识冗余。其它冗余是指那些主观无法感受到的信息等带来的冗余。
　　通常数据压缩技术可分为无损压缩(又叫冗余压缩)和有损压缩(又叫熵压缩)两大类。无损压缩就是把数据中的冗余去掉或减少，但这些冗余量是可以重新插入到数据中的，因而不会产生失真。该方法一般用于文本数据的压缩，它可以保证完全地恢复原始数据；其缺点是压缩比小(其压缩比一般为2：1至5：1)。有损压缩是对熵进行压缩，因而存在一定程度的失真；它主要用于对声音、图像、动态视频等数据进行压缩，压缩比较高(其压缩比一般高达20：1以上。最新被称为“E—igen—ID”的压缩技术可将基因数据压缩1．5亿倍)。对于多媒体图像采用的有损压缩的标准有静态图像压缩标准(JPEG标准，即‘JointPhotographicExpertGroup’标准)和动态图像压缩标准(MPEG标准，即‘MovingPictureExpertGroup’标准)。
　　JPEG利用了人眼的心理和生理特征及其局限性来对彩色的、单色的和多灰度连续色调的、静态图像的、数字图像的压缩，因此它非常适合不太复杂的以及一般来源于真
　　实景物的图像。它定义了两种基本的压缩算法：一种是基于有失真的压缩算法，另一种是基于空间线性预测技术(DPCM)无失真的压缩算法。为了满足各种需要，它制定了四种工作模式：无失真压缩、基于DCT的顺序工作方式、累进工作方式和分层工作方式。
　　MPEG用于活动影像的压缩。MPEG标准具体包三部分内容：(1)MPEG视频、(2)MPEG音频、(3)MP系统(视频和音频的同步)。MPEG视频是标准的核心分，它采用了帧内和帧间相结合的压缩方法，以离散余变换(DCT)和运动补偿两项技术为基础，在图像质量基不变的情况下，MPEG可把图像压缩至1／100或更MPEG音频压缩算法则是根据人耳屏蔽滤波功能。利用音响心理学的基本原理，即“某些频率的音响在重放其频率的音频时听不到”这样一个特性，将那些人耳完全不到或基本上听到的多余音频信号压缩掉，最后使音频号的压缩比达到8：1或更高，音质逼真，与CD唱片可媲美。按照MPEG标准，MPEG数据流包含系统层和压层数据。系统层含有定时信号，图像和声音的同步、多
　　分配等信息。压缩层包含经压缩后的实际的图像和声数据，该数据流将视频、音频信号复合及同步后，其数据输率为1．5MB／s。其中压缩图像数据传输率为1．2M压缩声音传输率为0．2MB／s。
　　MPEG标准的发展经历了MPEG—I,MPEG一2、MPEG一4、MPEG-7、MPEG一21等不同层次。在MPEG的不同标准中，每—个标准都是建立在前面的标准之上的，并与前面的标准向后的兼容。目前在图像压缩中，应用得较多的是MPEG一4标准，MPEG-是在MPEG-2基础上作了很大的扩充，主要目标是多媒体应用。在MPEG一2标准中，我们的观念是单幅图像，而且包含了一幅图像的全部元素。在MPEG一4标准下，我们的观念变为多图像元素，其中的每—个多图像元素都是独立编码处理的。该标准包含了为接收器所用的指令，告诉接收器如何构成最终的图像。

　　上图既表示了MPEG一4解码器的概念，又比较清楚地描绘了每个部件的用途。这里不是使用单一的视频或音频解码器，而是使用若干个解码器，其中的每一个解码器只接收某个特定的图像(或声音)元素，并完成解码操作。每个解码缓冲器只接收属于它自己的灵敏据流，并转送给解码器。复合存储器完成图像元素的存储，并将它们送到显示器的恰当位置。音频的情况也是这样，但显然不同点是要求同时提供所有的元素。数据上的时间标记保证这些元素在时间上能正确同步。MPEG一4标准对自然元素(实物图像)和合成元素进行区分和规定，计算机生成的动画是合成元素的一个例子。比如，一幅完整的图像可以包含一幅实际的背景图，并在前面有一幅动画或者有另外一幅自然图像。这样的每一幅图像都可以作最佳压缩，并互相独立地传送到接收器，接收器知道如何把这些元素组合在一起。在MPEG一2标准中，图像被看作一个整体来压缩；而在MPEG一4标准下，对图像中的每一个元素进行优化压缩。静止的背景不必压缩到以后的I帧之中去，否则会使带宽的使用变得很紧张。而如果这个背景图像静止10秒钟，就只要传送一次(假设我们不必担心有人在该时间内切人此频道)，需要不断传送的仅是前台的比较小的图像元素。对有些节目类型，这样做会节省大量的带宽。MPEG一4标准对音频的处理也是相同的。例如，有一位独唱演员，伴随有电子合成器，在MPEG一2标准下，我们必须先把独唱和合成器作混合，然后再对合成的音频信号进行压缩与传送。在MPEG一4标准下，我们可以对独唱作单独压缩，然后再传送乐器数字接口的声轨信号，就可以使接收器重建伴音。当然，接收器必须能支持MIDI放音。与传送合成的信号相比，分别传送独唱信号和MIDI数据要节省大量的带宽。其它的节目类型同样可以作类似的规定。MPEG一7标准又叫多媒体内容描述接口标准。图像可以用色彩、纹理、形状、运动等参数来描述，MPEG一7标准是依靠众多的参数对图像与声音实现分类，并对它们的数据库实现查询。
　　二、多媒体数据压缩技术的实现方法
　　目前多媒体压缩技术的实现方法已有近百种，其中基于信源理论编码的压缩方法、离散余弦变换(DCT)和小波分解技术压缩算法的研究更具有代表性。小波技术突破了传统压缩方法的局限性，引入了局部和全局相关去冗余的新思想，具有较大的潜力，因此近几年来吸引了众多的研究者。在小波压缩技术中，一幅图像可以被分解为若干个叫做“小片”的区域；在每个小片中，图像经滤波后被分解成若干个低频与高频分量。低频分量可以用不同的分辨率进行量化，即图像的低频部分需要许多的二进制位，以改善图像重构时的信噪比。低频元素采用精细量化，高频分量可以量化得比较粗糙，因为你不太容易看到变化区域的噪声与误差。此外，碎片技术已经作为一种压缩方法被提出，这种技术依靠实际图形的重复特性。用碎片技术压缩图像时需要占用大量的计算机资源，但可以获得很好的结果。借助于从DNA序列研究中发展出来的模式识别技术，能减少通过WAN链路的流量，最多时的压缩比率能达到90％，从而为网络传送图像和声音提供更大的压缩比，减轻风络负荷，更好地实现网络信息传播。
　　三、压缩原理
　　由于图像数据之间存在着一定的冗余，所以使得数据的压缩成为可能。信息论的创始人Shannon提出把数据看作是信息和冗余度（redundancy）的组合。所谓冗余度，是由于一副图像的各像素之间存在着很大的相关性，可利用一些编码的方法删去它们，从而达到减少冗余压缩数据的目的。为了去掉数据中的冗余，常常要考虑信号源的统计特性，或建立信号源的统计模型。图像的冗余包括以下几种：
　　(1) 空间冗余：像素点之间的相关性。
　　(2) 时间冗余：活动图像的两个连续帧之间的冗余。
　　(3) 信息熵冗余：单位信息量大于其熵。
　　(4) 结构冗余：图像的区域上存在非常强的纹理结构。
　　(5) 知识冗余：有固定的结构，如人的头像。
　　(6) 视觉冗余：某些图像的失真是人眼不易觉察的。
　　对数字图像进行压缩通常利用两个基本原理：
　　(1) 数字图像的相关性。在图像的同一行相邻像素之间、活动图像的相邻帧的对应像素之间往往存在很强的相关性，去除或减少这些相关性，也就去除或减少图像信息中的冗余度，即实现了对数字图像的压缩。
　　(2) 人的视觉心理特征。人的视觉对于边缘急剧变化不敏感(视觉掩盖效应)，对颜色分辨力弱，利用这些特征可以在相应部分适当降低编码精度，而使人从视觉上并不感觉到图像质量的下降，从而达到对数字图像压缩的目的。
　　编码压缩方法有许多种，从不同的角度出发有不同的分类方法，比如从信息论角度出发可分为两大类：
　　(1)冗余度压缩方法，也称无损压缩，信息保持编码或熵编码。具体讲就是解码图像和压缩编码前的图像严格相同，没有失真，从数学上讲是一种可逆运算。
　　(2)信息量压缩方法，也称有损压缩，失真度编码或熵压缩编码。也就是讲解码图像和原始图像是有差别的，允许有一定的失真。
　　应用在多媒体中的图像压缩编码方法，从压缩编码算法原理上可以分类为：
　　(1)无损压缩编码种类 •哈夫曼编码 •算术编码 •行程编码 •Lempel zev编码
　　(2)有损压缩编码种类 •预测编码：DPCM，运动补偿 •频率域方法：正文变换编码(如DCT)，子带编码 •空间域方法：统计分块编码 •模型方法：分形编码，模型基编码 •基于重要性：滤波，子采样，比特分配，矢量量化
　　(3)混合编码 •JBIG，H261，JPEG，MPEG等技术标准
　　衡量一个压缩编码方法优劣的重要指标
　　(1)压缩比要高，有几倍、几十倍，也有几百乃至几千倍；
　　(2)压缩与解压缩要快，算法要简单，硬件实现容易；
　　(3)解压缩的图像质量要好。
　　四、JPEG图像压缩算法
　　1．.JPEG压缩过程

　　JPEG压缩分四个步骤实现：
　　1.颜色模式转换及采样；
　　变换；
　　3.量化；
　　4.编码。
　　2．1．颜色模式转换及采样
　　RGB色彩系统是我们最常用的表示颜色的方式。JPEG采用的是YCbCr色彩系统。想要用JPEG基本压缩法处理全彩色图像，得先把RGB颜色模式图像数据，转换为YCbCr颜色模式的数据。Y代表亮度，Cb和Cr则代表色度、饱和度。通过下列计算公式可完成数据转换。
　　Y=0.2990R+0.5870G+0.1140B
　　Cb=-0.1687R-0.3313G+0.5000B+128
　　Cr=0.5000R-0.4187G-0.0813B＋128
　　人类的眼晴对低频的数据比对高频的数据具有更高的敏感度，事实上，人类
　　的眼睛对亮度的改变也比对色彩的改变要敏感得多，也就是说Y成份的数据是比较重要的。既然Cb成份和Cr成份的数据比较相对不重要，就可以只取部分数据来处理。以增加压缩的比例。JPEG通常有两种采样方式：YUV411和YUV422，它们所代表的意义是Y、Cb和Cr三个成份的资料取样比例。
　　2．变换
　　DCT变换的全称是离散余弦变换(Discrete Cosine Transform)，是指将一组光强数据转换成频率数据，以便得知强度变化的情形。若对高频的数据做些修饰，再转回原来形式的数据时，显然与原始数据有些差异，但是人类的眼睛却是不容易辨认出来。
　　压缩时，将原始图像数据分成8*8数据单元矩阵，例如亮度值的第一个矩阵内容如下：

　　JPEG将整个亮度矩阵与色度Cb矩阵，饱和度Cr矩阵，视为一个基本单元称作MCU。每个MCU所包含的矩阵数量不得超过10个。例如，行和列采样的比例皆为4:2:2，则每个MCU将包含四个亮度矩阵，一个色度矩阵及一个饱和度矩阵。
　　当图像数据分成一个8*8矩阵后，还必须将每个数值减去128，然后一一代入DCT变换公式中，即可达到DCT变换的目的。图像数据值必须减去128，是因为DCT转换公式所接受的数字范围是在-128到+127之间。
　　DCT变换公式：

　　x,y代表图像数据矩阵内某个数值的坐标位置
　　f(x,y)代表图像数据矩阵内的数个数值
　　u,v代表DCT变换后矩阵内某个数值的坐标位置
　　F(u,v)代表DCT变换后矩阵内的某个数值
　　u=0 且 v=0 c(u)c(v)=1/1.414
　　u>0 或 v>0 c(u)c(v)=1
　　经过DCT变换后的矩阵数据自然数为频率系数，这些系数以F（0，0）的值最大，称为DC，其余的63个频率系数则多半是一些接近于0的正负浮点数，一概称之为AC。
　　3．3、量化
　　图像数据转换为频率系数后，还得接受一项量化程序，才能进入编码阶段。
　　量化阶段需要两个8*8矩阵数据，一个是专门处理亮度的频率系数，另一个则是
　　针对色度的频率系数，将频率系数除以量化矩阵的值，取得与商数最近的整数，
　　即完成量化。
　　当频率系数经过量化后，将频率系数由浮点数转变为整数，这才便于执行最
　　后的编码。不过，经过量化阶段后，所有数据只保留整数近似值，也就再度损失
　　了一些数据内容，JPEG提供的量化表如下：

　　2．4、编码
　　Huffman编码无专利权问题，成为JPEG最常用的编码方式，Huffman编码通常是以完整的MCU来进行的。
　　编码时，每个矩阵数据的DC值与63个AC值，将分别使用不同的Huffman编码表，而亮度与色度也需要不同的Huffman编码表，所以一共需要四个编码表，才能顺利地完成JPEG编码工作。
　　DC编码
　　DC是彩采用差值脉冲编码调制的差值编码法，也就是在同一个图像分量中取得每个DC值与前一个DC值的差值来编码。DC采用差值脉冲编码的主要原因是由于在连续色调的图像中，其差值多半比原值小，对差值进行编码所需的位数，会比对原值进行编码所需的位数少许多。例如差值为5，它的二进制表示值为101，如果差值为-5，则先改为正整数5，再将其二进制转换成1的补码即可。所谓1的补码，就是将每个Bit若值为0，便改成1；Bit为1，则变成0。差值5应保留的位数为3，下表即列出差值所应保留的Bit数与差值内容的对照。

　　在差值前端另外加入一些差值的霍夫曼码值，例如亮度差值为5（101）的位数为3，则霍夫曼码值应该是100，两者连接在一起即为100101。下列两份表格分别是亮度和色度DC差值的编码表。根据这两份表格内容，即可为DC差值加上霍夫曼码值，完成DC的编码工作。

　　AC编码
　　AC编码方式与DC略有不同，在AC编码之前，首先得将63个AC值按Zig-zag排序，即按照下图箭头所指示的顺序串联起来。

　　63个AC值排列好的，将AC系数转换成中间符号，中间符号表示为RRRR/SSSS，RRRR是指第非零的AC之前，其值为0的AC个数，SSSS是指AC值所需的位数，AC系数的范围与SSSS的对应关系与DC差值Bits数与差值内容对照表相似。
　　如果连续为0的AC个数大于15，则用15/0来表示连续的16个0，15/0称为ZRL（Zero Rum Length），而（0/0）称为EOB（Enel of Block）用来表示其后所
　　剩余的AC系数皆等于0，以中间符号值作为索引值，从相应的AC编码表中找出适当的霍夫曼码值，再与AC值相连即可。
　　例如某一组亮度的中间符为5/3，AC值为4，首先以5/3为索引值，从亮度AC的Huffman编码表中找到1111111110011110霍夫曼码值，于是加上原来100（4）即是用来取[5，4]的Huffman编码1111111110011110100，[5，4]表示AC值为4的前面有5个零。
　　由于亮度AC，色度AC霍夫曼编码表比较长，在此省略去，有兴趣者可参阅相关书籍。
　　实现上述四个步骤，即完成一幅图像的JPEG压缩。

上一篇：手机杂志锁屏图片在哪里

下一篇：中医拔罐论文2000字

多媒体图像处理技术论文