从前年开始,谷歌就已经与以色列博物馆合作,先后将5份完整版的死海古卷卷轴扫描件和5000张图片放上互联网。据悉,这些古卷轴在之前全世界只有5名管理员被允许接触。
文化资源是体现一个国家文化实力的核心要素,也是国家文化及文化产业发展的基础和源头。我国对各类物质和非物质文化资源数字化工作的开展,为我们利用大数据分析等先进技术,加强对中华文化的充分认知和深入挖掘利用提供了前所未有的契机和条件。
如何利用大数据等先进信息技术的手段,进一步加深对中华民族几千年文明史的系统了解和认知,在更好地支撑我国文化产业发展的同时,促进中华文化血脉的传承延续,是科技部高技术中心在组织开展科技部委托的“国家文化科技创新战略研究”项目过程中意识到的重大问题。
日前,由该中心主办的主题为“大数据技术在文化资源管理中的应用”的“西苑沙龙”在京召开。沙龙邀请了国内研究大数据技术和模式识别、中文信息处理、知识挖掘等先进信息技术以及有关文化艺术创作、文化企业等方面的专家学者,围绕着大数据技术在加强文化资源管理中的作用、需求和技术途径等方面问题,展开了一场跨学科、跨领域的深刻讨论。
历史文化资源大数据与分析技术
大数据是指数据量大,但究竟怎样的量才算大,目前并没有统一的定义。一般认为,大数据的数量级至少应该达“太字节”(TB)以上。因为达到了这个量级以上的数据,利用现有IT技术和软硬件工具将难以实现在可容忍的时间内,对其进行有效感知、获取、管理、处理和利用,必须要开发新的数据管理和处理软硬件技术,才能满足应用需求。
随着各类数字化文化资源信息的不断产生,各类数字化文化资源库的不断建立与完善,在客观上为我们建立了一个庞大的、具有大数据特征的数据库和资源库。这为我们进一步利用大数据分析等先进的信息技术手段,实现对这些文化资源信息的整合、梳理、分析、凝练,提供了前所未有的基础和条件。
其中,基于数字化的历史文化资源大数据是有计划地对各类历史文化资源数字化所形成的大数据信息。对这类数据的有效管理和充分挖掘、利用,或许是大数据及其分析技术最为重要的应用角度和需求。
1947年春天,一名牧童在死海附近的一个山洞里发现了一些残缺不堪的手稿。1948年至1956年间,研究人员又在死海西北基伯昆兰旷野陆续发现11个藏有手稿的洞穴。十多年间,考古学家发掘出近4万古卷残片,种类多达600多种。这些手稿大部分用希伯来文写在羊皮上,公元前二三世纪到公元70年间写成,记录了大量关于《圣经》和基督教起源的重要信息。这在近代考古史上非常罕见,被称为20世纪最伟大的考古发现之一。这就是著名的“死海古卷”。
利用数据处理技术,“死海古卷”机器近几年自动修复的效率,已经与数百人类专家过去一个世纪的成果相当。另外,梵高、勃鲁盖尔等大师画作鉴别精准度达到了95%以上。这些都是目前利用大数据分析技术进行画作鉴别、古文献修复、历史文物分析等取得的惊人成果。
中华文化与信息孤岛
一个国家、民族的文化资源是其文明发展的历史过程中沉积形成的独有资产,具有唯一性和不可扩展等特点。因此,具有不可估量的文化、经济和社会价值和意义,是代表一个国家文化软实力的核心内容和象征要素,也是各类文化艺术产品创作的基础资料和源泉。
青花瓷背后还有哪些我们不知晓的特点?手工织造对于现代工艺是否有所启发?经过几千年的文化沉淀,先辈给我们留下了无数的财富,但仅靠少数的专家一件一件文物的深究,对于进一步发掘文明成果来说,是否仍不成体系,不甚具体,不够全面?或者在这些文化瑰宝里,有着更多我们不了解的东西?
大数据分析技术在历史文化分析研究的成果,对于我们进一步加深对中华民族文明发展的历史,认知、辨识中华文化“基因”、延续文脉,明确我国文化建设应加强保护、传承和对外传播的重点内容,制定国家文化发展战略具有重要的意义。
第三次文物普查表明,现在在不可移动文物总数已经达到了76.6722万件;在可移动文物,预计在3亿件组的规模。每年我国有100个博物馆新增,平均三天就出现一个博物馆。目前很多博物馆、图书馆,以及非物质文化遗产保护组织与部门,正在以不同方式、为不同的应用目的,开展着对各类历史文化资源的数字化工作,客观上形成了一个前所未有的难得的中华文化资源大数据汇集。
但由于这些数字化资源分散在不同的单位、部门,且基本没有统一的格式标准,形成了一系列新的“信息孤岛”。出于各种原因,各自独守一摊,各类数据如果无法汇集到一起,也就难以充分发挥其应有的作用。
文化部民族民间文艺发展中心主任李松认为,传统文化资源数字化整备技术应用能力低下,体制机制制约使得资源碎片化,行政制约非常严重。国家文物局博物馆与社会文物司副司长罗静表示,在数据融合方面,信息的“孤岛”也是非常严重的。就海量数据来说,如果没有通过一定的融合、整合,其实它还是海量数据,而不是大数据。此外,文化数据整体框架上面也存在碎片化的状态。
文化与科技的共同任务
如何消除这些信息孤岛?如何有效整合各自整理出的数字化文化资源?如何利用大数据分析技术对这些资源的价值进行进一步的挖掘和利用?
在现行体制下,专家期望通过一定的技术手段,以及适宜的共享共建机制,构建一个实际或虚拟的数据交汇中心或平台,整合各类数据资源。以便在此基础上,进一步发挥计算机中文信息处理、模式识别、知识挖掘等大数据分析技术的优势,加强文化研究,促进我们对中华文化的认知和保护利用。
也正因此,面向各类文化研究、文化艺术创作、文化管理等用户提供更为优质、高效的信息服务,便成为了一个需要文化与科技相关领域共同探讨、推进的任务。
专家们认为,根据历史文化资源数据信息来源及其结构多元、主要应用领域、方式与用户多样等特点,面向历史文化资源管理的大数据分析系统,应是数据来源和应用端开放的,能够实现对数据提供相关主体和各类用户共建共享的数据管理平台。
为建立开放共享的数据交汇中心,需要建立技术系统构架,并需解决的四方面的技术问题:建立数字化标准;设计统一的跨平台中间件;实现高效的数据共享;加强对应用于文化资源大数据分析的基础技术的集成利用。
同时,加强各类数字文化资源的共享利用,不但需要有适宜的技术支撑,同时也需要面对应用需求和客观现实条件,加强顶层设计,在组织管理模式和保障措施上有所创新。
首先应加强对我国文化数字资源管理的系统规划。明确总体目标、任务和发展战略,提出有利于促进国家文化资源信息大数据管理利用的,由国家和社会相关机构共享共建的组织机制、商业模式和技术框架与标准。
第二可通过国家层面的文化资源管理与共享工程的组织,引导有关图书、文物、非遗保护部门以及各类文化企业、研究机构等有关单位和组织,共同围绕国家文化资源管理的发展战略和目标,开展各类历史文化数字资源库的建设,及其价值挖掘研究和综合利用产品开发。
第三可通过建立国家数字文化资源整合管理虚拟平台等方式,从技术上为各类、各源的文化资源大数据的整合、交汇和综合利用,以及安全维护、利益分配和知识产权保护等提供支撑。
第四是开展形式多样的应用示范,选择若干重点文化主题,组织开展系统深入的文化研究;并充分发挥市场和各类文化企业的作用,开展基于中国历史文化资源的,形式多样的文化、艺术服务产品开发,为提升我国文化产品的文化内涵和中华文化的国际传播力和影响力提供支撑。
“文化原动力是国家建设的基础性建设,需要科技部跟文化部共同有一些软研究在顶层设计上,然后在架构好的时候给科技一些力量,余下的由业界来做。”中科院自动化研究所研究员徐波说。
专家视点
李松 文化部民族民间文艺发展研究中心主任:
我强烈呼吁关注改善文化资源整备的技术环境,包括各类资源抢救、修复、复原、记录的相关技术,提高各类形式媒介注录效能的相关技术,加强大数据管理、清晰、分析的相关技术,进一步融合到各类资源信息的标准化体系建设。
我建议在国家战略层面应该构建大型的文化系统工程,建设文化研究和文化传承的数字化广泛应用体系。
罗静 国家文物局博物馆与社会文物司副司长:
从国外来看,行业的数字化相关工作可以分为几类,政府主导、博物馆主导、NGO主导、企业主导的相关工作。从需求提出、数据采集、数据融合、数据挖掘、智慧应用方面来看,大数据技术在文化资源管理中依旧存在很多问题,整体的框架不清楚,而且大多数文化机构在做的工作都是局部的探索性的工作。
孙茂松 清华大学计算机科学与技术系教授:
关于国内对大数据在文化资源管理上的应用,我提出这么两条建议:1)做基础的应用。例如,现在所有《二十四史》都已信息化,但处于原生态,连最起码的分词都没有。2)构建中国传统文化本体体系和知识图谱的工程。
孙一钢 中国国家图书馆研究员:
现在是传统图书馆和数字图书馆并行的阶段。数字图书馆很重要,在承担一个国家文化传承的职责。从数字图书馆技术服务体系来讲,大数据现在面临着非常严重的知识组织理论和系统的研究问题。
徐波 中国科学院自动化研究所研究员:
不管是小数据还是大数据,还是需要有很好的复杂算法来刻画丰富的内在信息。大数据模式识别技术聚焦,一个是怎么感知深度学习,另一个是认知层面的知识图谱和推演,这是两个很共性的问题。
总而言之,我认为整个模式识别技术原来是比较分散的研究模式,可能会面向终极创新大科学工程的研究模式方面发展,然后慢慢逼近人的智能水平。
不管是博物馆、图书馆还是非遗,最后形成的就是文本、图像、影像、声音,核心就是文化资源的管理和应用。文化的资源管理,首先是应用的问题。
周志华 南京大学计算机软件新技术国家重点实验室教授:
数据挖掘也就是机器学习提供数据分析技术再加上数据库提供数据管理技术一起来成为数据挖掘,这在医学、考古等方面有诸多的应用。关于大数据,有3个误区:有大数据,“模型”不重要;大数据,只要“相关”,不要“因果”;大数据,需搭配新的方法。
金海 华中科技大学计算机科学与技术学院教授:
在海量的知识管理和推理方面,通过海量数据甄别推演新的文化知识,这些技术为文化创新提供多元文化要素转型升华。云计算是大数据技术的支撑环节,对大数据资源挖掘提供了基础的设施,同时包括大规模的离线数据处理、流式数据处理、内存计算技术等为大数据挖掘提供技术支撑。云计算的主要目的为文化创新提供软硬件的支撑平台。
曾成钢 清华大学美术学院教授:
大数据虽然跟美术没有直接关联,但提供了很多支撑技术,对业务来说至关重要,开辟了新的方法和途径。
关健 上海方正数字出版技术有限公司副总经理:
方正公司利用大数据技术,做了数据收集和聚合的引擎,汇集很多文化教育信息,基于传统的数据库技术,做图书出版类的决策和分析,包括从内容汇聚到最后内容重新组织展现的完整解决方案。
张加万 天津大学国家示范性软件学院教授:
大数据技术在文物保护方面相关的工作现在是做得较多的,例如文物的三维数字化及应用等。总的来说,有四个方面的工作是非常重大的。第一,如何把馆藏文物的资源和网络资源进行整合,通过建立分布式、异构、虚拟文物知识库及应用平台。不仅要把分析放进去,还要把知识放进去。第二,关于基于大数据准入的标识和鉴别。第三,基于大数据分析的文物劣化机理研究。最后,基于大数据分析的观众和游客行为及个性化服务技术。从人、物、环境的角度进行研究,并且来解决服务质量的问题。
许鲁 中国科学院计算技术研究所研究员:
从文化资源的管理角度,我们需要公平自由的文化共享,需要大数据技术的支撑,存储技术的作用明显。
(来源:科技日报)