探索国家文化数字化战略下中华文化数据库建设的逻辑与策略,为扎实推进公共文化数字服务高质量发展提供思路,为推进文化自信自强、铸就社会主义文化新辉煌贡献力量。
紧扣党的二十大报告中关于“文化强国”“数字中国”等方面的重大战略部署,以《关于推进实施国家文化数字化战略的意见》为具体导向,对中华文化数据库的历史渊源、当前发展及未来展望进行深入分析探讨。
中华文化数据库的建设经历了数字典藏开启的初期探索形态、中国记忆工程引领的多元发展形态和数字人文驱动的高级过渡形态,已初具雏形。建议通过构建资源汇聚系统、数据关联系统、运营保障系统、数据治理系统、开放共享系统等实现中华文化数据库的汇聚与关联,实现中华文化全景呈现及中华文明数字化成果全民共享。
本文探究中华文化数据库的汇聚与关联思路。
一、引言
2022年10月16日,在中国共产党第二十次全国代表大会开幕会上,习近平代表第十九届中央委员会向大会作报告,“文化”成为报告的热词,出现30余次。报告中提到“推进文化自信自强,铸就社会主义文化新辉煌”[1],明确实现社会主义现代化国家和建设社会主义文化强国的重要性和历史意义。同时报告中 还强调要加快建设“数字中国”,构建社会主义现代化国家高质量新发展格局。
2022年5月18日,中共中央、国务院印发《关于推进实施国家文化数字化战略的意见》(以下简称《意见》)[2],首次提出“国家文化数字化战略”。“文化数字化战略”的提出是建设“文化强国”与“数字中国”的共同立足点,是激发全民族文化创新创造活力、繁荣发展文化事业和文化产业、增强人民精神力量的重要一步。
《意见》中首个重点任务为“关联形成中华文化数据库”,要求中华文化数据库汇聚思想理论、文化旅游、文物、新闻出版、电影、广播电视、网络文化文艺等不同领域的文化资源数据;关联文字、音频、视频等不同形态的文化数据源和文化实体;汇集文物、古籍、美术、地方戏曲剧种、民族民间文艺、农耕文明遗址等数据资源,聚焦社会主义先进文化、革命文化、中华优秀传统文化。
“关联形成中华文化数据库”将实现文化资源全阶段、全地域、全形态、全内容的整合,是将蕴含中华文明精神标识和文化精髓的文化资源转化为文化生产要素的基础,是文化数字化发展的前提。本文以学习贯彻党的二十大精神为目标指引,以国家文化数字化战略为指导,以《关于推进实施国家文化数字化战略的意见》为具体导向,以《意见》中“关联形成中华文化数据库”为切入点,深入思考建设社会主义文化强国和实现数字中国现代化产业体系的要求下,中华文化数据库缘起何处、渐序何如、汇聚何从。全面梳理中华文化数据库的建设思路,在国家文化数字化战略发展中,探寻中华文化数据库的逻辑体系,为扎实推进公共文化数字服务高效、高质量发展提供思路,为推进文化自信自强,铸就社会主义文化新辉煌贡献力量。
二、缘起
1、建设中华文化数据库是坚定文化自信、实现文化强国的现实规划
中华文化数据库是建设社会主义文化强国的现实规划,为文化强国建设提供了具象表达。党的十七届六中全会提出“建设社会主义文化强国”的伟大目标与宏伟战略[3],建设社会化文化强国已提到了新的高度,党的十八大进一步强调“扎实推进社会主义文化强国建设”,党的十九届五中全会明确提出到2035年建成文化强国,党的二十大更加具体地提出“建设社会主义文化强国,发展面向现代化、面向世界、面向未来的,民族的科学的大众的社会主义文化。”
2011年施行的《中华人民共和国非物质文化遗产法》、2017年施行的《中华人民共和国公共文化服务保障法》为文化强国建设提供了法律层面的坚实保障。由此,我们深刻认识到新时代文化建设的新使命,文化强国建设不再是探索性发展,而是进入了计划部署、成果创造和目标落实阶段。中华文化数据库为坚定文化自信提供了强大的底气支撑。坚定文化自信是建设文化强国的内在基础与先决条件,党的十八大以来习近平同志多次强调文化自信问题,指出“中国有坚定的道路自信、理论自信、制度自信,其本质是建立在5000多年文明传承基础上的文化自信[4]”。文化自信是一个国家、一个民族、一个政党对自身文化价值的充分肯定,对自身文化生命力的坚定信念[5]。文化自信源自何处?正是源于承前启后、继往开来的社会主义先进文化,鲜明独特永放光芒的革命文化,五千年来博大精深的优秀传统文化。中华文化数据库全面梳理中华文化资源,打破传播壁垒,实现中华文化全景呈现,全民共享,是对流传在中国人血脉中的文化基因进行数字化展现,为坚定文化自信提供了强大的底气支撑,为建设社会主义文化强国目标提供内容保障。
2、建设中华文化数据库是推进数字政府、数字中国建设的精神力量
中华文化数据库建设是数字中国建设的重要组成部分,为数字中国建设提供了强韧的精神力量。2015年,习近平总书记在第二届世界互联网大会的开幕式上提出“中国正在实施‘互联网+’行动计划,推进‘数字中国’建设”[6],党的二十大将数字中国与制造强国、质量强国、航天强国、交通强国、网络强国并列作为社会主义现代化国家新发展格局的现代化产业体系。随着数字中国建设进程的加快,数字化已渗入到社会生活的方方面面,各种元素的数字化,带动生活方式的智能化,同时各类看不见摸不着的虚拟化场景可能让人们走进数字化迷雾之中而无法看清初心使命,中华文化数据库正是疏散迷雾的璀璨星光,不仅照亮了来时路,也指引了脚下路。
内容丰富、形态多样的中华文化满足了人民精神生活个性化多样化的需求,全民共享、全景呈现的中国历史文化在快消浪潮裹挟前行中为人们提供丰裕精神食粮,为数字化中国建设营造一个开放、健康、安全的数字生态。中华文化数据库为推进数字政府建设提供了智慧担当,优秀的中华文化所蕴含的思想精神为数字中国的治国理政提供了有益启示。
2022年6月《国务院关于加强数字政府建设的指导意见》提出“加强数字政府建设是……建设网络强国、数字中国的基础性和先导性工程,是创新政府治理理念和方式、形成数字治理新格局、推进国家治理体系和治理能力现代化的重要举措……[7]”。
社会主义先进文化是中国共产党先进价值观外化的智慧结晶,在继承与发展中不断实现创新超越,为数字政府建设提供了最佳的实践指导;
优秀传统文化中的学问与精髓历久弥新,为数字政府建设提供了源源不断的智慧来源,不断提升政府数字化建设水平;
红色基因文化蕴含着伟大的革命精神和厚重的历史内涵,为数字化政府建设的探索提供管理智慧与创新理念。
3、建设中华文化数据库是推动公共文化服务高质量发展的精准举措
中华文化数据库的建设是公共文化服务体系建设的迫切行动。早在2004年国家发改委在《推进2004年经济体制改革的意见》中就提出公共文化服务的建设要求。2005年国务院下发《关于2005年深化经济体制改革的意见》,再次强调要加快公共文化服务体系建设[8],并持续出现在文化发展纲要的五年计划中。
“十一五”提出“完善公共文化服务网络”,
“十二五”提出“加快构建公共文化服务体系”,
“十三五”提出“加快现代公共文化服务体系建设”,
《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》[9]提出“加强公共文化服务体系建设和体制机制创新,强化中华文化传播推广和文明交流互鉴,更好保障人民文化权益”,公共文化建设的目标逐渐明确。
党的二十大提出繁荣发展文化事业和文化产业,健全现代公共文化服务体系。随着《公共文化服务保障法》和《公共图书馆法》的出台及实施,公共文化建设体系逐渐完善。公共文化服务的战略布局已经就位,各级别各领域的政策文件涵盖了公共服务目标、理念、资源、体系、实施、治理、评估、保障等各个方面[10]。
“十三五”期间实现了公共文化服务水平不断提高,文化事业和文化产业繁荣发展,迫切需要加强优秀文化作品创作生产传播、优化城乡文化资源配置,推进城乡公共文化服务体系一体化建设。全民共享的中华文化数字化成果恰到好处地符合公共文化服务的公平均等性、公益性、多样性、便利性和普及性特征,能有效解决人民日益增长的精神文化需要和不平衡不充分的资源之间的矛盾。
中华文化数据库建设,成为推动公共文化服务高质量发展的精准举措。
从服务模式来看,公共文化服务体系建设需要动员和鼓励社会力量共同参与,中华文化数据库的建设正是一项全社会协同、全员参与、惠及全民的工作,需要长期统筹新闻出版、文化旅游等领域的优势资源,借助社会科学和自然科学的多种技术,必将不断强化公共文化服务体系的队伍建设、创新服务方式,提高服务质量;
从服务内容来看,公共文化服务主要范围为公共文化设施免费开放、送戏曲下乡、收听广播、观看电视、观赏电影、读书看报、少数民族文化服务和残疾人文化体育服务8个方面的内容[11],而中华文化数据库的内容聚焦社会主义先进文化、革命文化、中华优秀传统文化,并不断丰富中华民族文化基因的当代表达,这无疑为推广公共文化服务高质量发展提供了内容保障。
4、建设中华文化数据库是中华文明传播延续的航标灯塔
关联形成中华文化数据库,对维护国家认同、传播民族文化、弘扬中国精神具有前所未有的实践意义。“中国人民的特质、禀赋不仅铸就了绵延几千年发展至今的中华文明,而且深刻影响着当代中国发展进步,深刻影响着当代中国人的精神世界”[12]。党的二十大提出“增强中华文明传播力影响力,坚守中华文化立场,讲好中国故事、传播好中国声音,展现可信、可爱、可敬的中国形象,推动中华文化更好走向世界。”
中华文明是世界上最古老的文明之一,是人类历史上唯一没有断流的文明。中华文明几千年来在同世界其他文明的交流互鉴中历久弥新,滋养着一代又一代中国人民的精神世界,同时对全球经济社会发展、人际关系维系、文化多样性发展都有着重大的影响[13]。通过中华文化数据库关联形成,有助于深入梳理中华文明形成和发展的历史脉络,将进一步加深国际社会对中华文明的系统认识,在融合化、多极化、变革化的世界文明差异化发展中,展现中华文明独特品格和内蕴的魅力价值。全面梳理、整合、统筹中华文化资源,形成中华文化数据库,对创造人类文明新时代具有重要的时代价值。
《中共中央关于党的百年奋斗重大成就和历史经验的决议》明确指出中国共产党领导人民成功“走出中国式现代化道路,创造了人类文明新形态”[14]。习近平总书记强调:“每一种文明都延续着一个国家和民族的精神血脉,既需要薪火相传、代代守护,更需要与时俱进、勇于创新”[15]。中华文明是中华民族独特的精神标识,其中蕴含的丰富哲理让中华民族在发展中走入中国特色社会主义新时代,实现中华民族的伟大复兴。
中华文化数据库中多源一体的文化体系结构为人类文明新形态建设提供基本元素和价值支撑,加快实现人类文明新形态的文明复兴,从而推动构建人类命运共同体,促进世界和平发展和人类文明进步。
三、渐序
统筹利用文化领域已建或在建数字化工程和数据库所形成的成果,关联形成中华文化数据库,突破了时间和空间的局限,为中华文化的研究和传播带来了巨大的便利。虽然在《意见》中首次提到中华文化数据库的关联,但中华文化数据库的建立绝不是空中楼阁,也并非一蹴而就,从文献数字化、遗产数字化、人文数字化到中华文化数字化,我国经历了二十余年的探索,奠定了扎实深厚的基础。
1、文化数据库的初期探索形态:数字典藏数据库
新世纪以来,高速发展的互联网、云存储、大数据挖掘等技术为中华文化的研究和传播带来了无限可能,但是文化数据库的研究并不是新兴产物。
早在上世纪末,有学者开始了数字式图书馆研究,并提出数字式图书馆必须满足全文资料数字化、数据量达到相当大的规模、采用用户友好的多媒体超文本界面进行检索、可以上网四个条件[16]。同时数字式图书馆建设进入实践阶段,很多图书馆将本馆特色资源通过扫描、拍摄等传统数字化记录方式转化为数字文件,再经过编目标引进行组织整理,建库存储并提供检索、查阅等功能,这种传统图书馆的数字化,又称为数字典藏[17]。如1998年沈阳市图书馆将“沈阳文学艺术文库”的文献采用信息分解的方法建立特色数据库[18];1999年乐山师专图书馆提出发挥乐山的地方优势建立“嘉州旅游文化数据库”[19]。
进入新世纪后,特色文化数据库建设进入快速发展阶段,2007年64所211工程高校图书馆建有263个不同类型的特色文化数据库,我国省市级上网的52个公共图书馆建立了522个特色数据库[20]。以文献为主要文化资源形态的数字典藏数据库资源单一、功能简单、利用率较低,可认为是文化数据库的初级形态,为中华文化数据库文献史料资源奠定了厚实的基础。
2、文化数据库的多元发展形态:中国记忆工程
随着世界记忆工程的开展,2000年国家档案局正式启动“中国档案文献遗产工程”(简称“遗产工程”)[21],使中华民族珍贵的档案文献遗产得到最大限度的宣传、保护和利用。
首都图书馆“北京记忆”官网截图
2003年首都图书馆启动了“北京记忆”历史文化网站,以数字化形式提供北京经典文献全文资源、历史照片资源、地方艺术多媒体资源,以及舆图、金石拓片和艺术档案等地方文献资源[22]。文献与档案的结合,资源形态更为丰富多元,拓宽了数据库的资源结构,扩大了中华文化数字化的资源范畴。
2003年江苏文化共享工程网开通,致力于对江苏省优秀文化资源的挖掘整理,到2009年已形成了包括“人物数据库”“作品数据库”“旅游数据库”“文化民俗数据库”等12个特色子库的江苏文化数据库,展示于南京图书馆网站[23]。江苏文化数据库资源形态多元、内容丰富、地方特征明显,子库之间建立简单链接,实现了同一系统内各资源数据库之间的关联与追溯。
2012年国家图书馆开始实施中国记忆项目,以中国现当代重大历史事件和重要历史人物为专题,将文献资源建设中采集或收集的口述史料、影像资料及相关照片、日记、书信、实物等新文献,在项目网站和影音阅览室为读者提供免费阅览,并通过展览、图书、讲座、培训、纪录片等途径进行文献资源开发与利用[24],进一步将中华珍贵记忆从收藏向利用延伸,逐渐重视中华文化的传播与价值开发。中国记忆工程对普及和传承中华文化意义重大,为中华文化数据库的资源形态、内容类别、传播途径提供了多元立体架构。
3、文化数据库的高级过渡形态:数字人文数据库
“数字人文”是信息技术与人文研究融合而形成的一个新兴研究领域,给人文研究注入了新的活力,为中华文化的记录与传播提供了新的思路,为中华文化数据库的资源汇集、全景呈现提供了更多可能性。数字人文研究融合了图书馆学、考古学、艺术学、史学、地理学、档案学、信息学等多学科的专业技术和理论方法,不是单纯的资源数字化,还可以实现史料探勘视觉化、量化分析、建立3D模型、数字原生论文、动态环境制作、自造实境空间等功能[25]。当前数字人文的研究主要体现在基于GIS的历史地理可视化、文本挖掘与TEI标准、大型语料库的语料库、视频捕捉、运动分析与虚拟现实再现、图像分析、色彩还原和数字重建等[26]。
在中华文化数据库的建设中,数字人文技术将会利用文本挖掘技术对文献资源进行深度挖掘、运用GIS技术再现中华文化的动态地理分布、运用可视化技术实现中华文化脉络的关联与建构,通过语料库技术实现人物情感的传递,通过数字技术改变时空格局,通过多学科融合实现与历史的对话。
四、汇聚
根据《意见》,文化数字化的首个任务目标是关联各领域的数据资源、规范各形态的数据资源、贯通各类型数据库、保证数据质量和安全,营造开放有序的运行环境,最终形成中华文化数据库,为文化数字化的其他任务建设提供安全可靠的资源保障,为文化创新创造提供丰富多源的素材灵感。
首先将散落在各个系统、领域的中华文化资源进行全面梳理、整合;
其次建立适合各形态和类型资源的元数据标准,使现有的各类文化数据库进行关联访问;
第三明确中华文化数据库的运营保障机制,包括技术保障、网络安全、数据更新等保障数据库能够可持续地被使用与共享;
第四建立数据治理系统,围绕文化资源数据生命周期建立数据质量和数据安全治理框架;
第五建立开放共享的数据系统,实现中华文化全景呈现,中华文明数字化成果全民共享。
1、资源汇聚系统
当前中华文化数据资源散落在各级别各系统的网络平台中,如图书馆系统建设的特色数据库以文献为主,博物馆、艺术馆、美术馆等文化单位建设的特色数据库则以图片、视频、音频等形式的资源为主。这些资源既有形态上的差异性,又有内容上的关联性和同质性。如江苏文化数据库中收录了江苏省地方文化的民俗、人物、事件等,其形态上有文字、图片、音频和视频等,其内容与南京大学图书馆“南雍撷珍”古籍与特藏文献平台、苏州图书馆“苏州记忆”等各单位自建的数据库有交叉和关联。
因此,全面梳理中华文化数据资源至关重要,解决现有数据平台简单化、表面化及文化资源零散、封闭、静态的问题,建立上下联动纵向共建、左右共享横向共建、跨类协同一体化共建的中华文化数字资源结构化体系尤为关键。
(1)上下联动纵向共建的资源汇聚体系
上下联动纵向共建的资源汇聚体系就是按地理区划分类开展资源的梳理整合。中华文化具有鲜明的地域特色,每个省市都有其独特标志的地方文化,根据地理区划进行梳理,以省、直辖市、自治区为单位进行统筹,更加便于文化数字资源的收集、整合,也有利于文化数据资源的传播和利用。
以河南省为例[27],河南省文化数据资源平台有29个,分别散落在河南省非物质文化遗产网、河南文化网、公共图书馆、高校图书馆等,由于缺少统筹和管理,其内容以简单堆积为主,界面简单,检索困难,成了一个个“文化孤岛”。按照地理区划构建上下联动纵向共建的文化数字资源汇聚体系,由政府牵头,进行整体规划和顶层设计,可有效统筹各层级之前的文化数字资源、突破机构之间的信任壁垒。
(2)左右共享横向共建的资源汇聚体系
左右共享横向共建的资源汇聚体系就是按社会领域分类开展资源的梳理整合,有利于领域之间资源的互联共生和双向流动。当前不同的社会领域都已整理形成了部分文化数字资源,如自2012年国家图书馆启动“中国记忆”项目以来,北京、上海、湖南、辽宁、天津、山西、河南、福建等省级图书馆都开始记忆数据库的建设,形成文化记忆数据库群[28];2015年贵州省文化厅及贵州省非物质文化遗产保护中心开始建设全省统一的非物质文化遗产数据库[29]。文化旅游、文物、新闻出版、电影、广播电视、网络文化文艺、教育等不同领域已经建立了较多的文化资源数据,按照社会领域进行划分,建立二级资源汇聚体系,以各领域机构为主体,可快速进行资源梳理汇总,实现中华文化数据资源的贯通、共享和融合。
(3)跨类协同一体化共建的资源汇聚体系
跨类协同一体化共建的资源汇聚体系就是按内容门类进行资源的梳理整合。《意见》指出,贯通已建或在建文化专题数据库,应聚焦社会主义先进文化、革命文化、中华优秀传统文化。按照三大门类进行内容划分,每个大门类下又划分若干子门类。但目前并没有专门的文化分类大全,只能参考相关法律法规或政策文件中的分类,如中华优秀传统文化的分类可参考国务院公布的国家级非物质文化遗产名录,分为民间文学、传统体育、游艺与杂技、传统音乐、传统美术、传统舞蹈、传统技艺、传统戏剧、传统医药、曲艺、民俗等;如革命文化可按照人物、事件、革命精神等进行分类。
目前已经建立了相当多的单一主题文化数据库,如国家图书馆出版社建立了“中国历史文献总库·红色文献数据库”收藏了红色图书6300余种、红色期刊100余种、红色报纸70余种;江西省将建立全省革命文物资源数据库;各个省级图书馆均已建立了具有本地特色的红色文化数据库,包括专题红色纪录片、多媒体图像库、红色事件资料库等[30]。通过建立内容分类的跨类协同一体化共建资源汇聚体系,可实现同主题同质资源的形态多样化,最大限度地实现文字资源的全面多样。
2、数据关联系统
要实现各类文化资源的数据关联,首先要明确中华文化数据库各类型数据关联的具体目标,其次是建立可相互识别访问的元数据标准,采用交叉著录的模式,对各领域各形态的文化资源进行著录规范,对需要进行关联的数据进行多次著录,使同一数字资源与多个元数据相对应,通过任何一个元数据的链接都可以访问到该资源,从而形成地理区划间、领域间、内容间的深层次关联。
(1)数据关联具体目标关联形成文化资源数据要实现四个方面的数据关联:
①地理区划与特色文化带之间的数据关联,如含青海、四川、甘肃、宁夏等省份的黄河流域文化,含北京、天津、江苏等的大运河文化,山东境内形成发展的齐鲁文化等等,这些省份的文化资源数据同时要与各自所属的特色文化带资源数据进行关联;
②不同领域之间文化资源的数据关联,如图书馆为主体构建的资源数据与文化馆为主体构建的资源数据之间需进行关联,即《意见》中“关联思想理论、文化旅游、文物、新闻出版、电影、广播电视、网络文化文艺等不同领域的文化资源数据”;
③相同主题不同形态的资源进行数据关联,如文献类型的资源数据与相同主题的手稿、文物、遗迹等不同形态的资源数据进行关联,即《意见》中的“关联文字、音频、视频等不同形态的文化资源数据”;
④相同主题不同内容的资源进行数据关联,如文化名人数据与相关主题的作品数据、故居实体数据之间需进行关联,即《意见》中的“关联文化数据源和文化实体”。
(2)实现数据关联的元数据标准从某种程度上可以说关联数据是元数据语义表达和实现其功能需求的最佳方式[31],可以说,元数据标准设计是实现中华文化数据库关联的最基础性工作,国内外已有很多较为成熟的元数据标准可以参考和借鉴,但还需要建立适用各类文化资源数据相互转换和访问的统一标准。元数据标准是描述某类资源的具体对象时所有规则的集合,不同类型的资源可能会有不同的元数据标准。它一般包括了完整描述一个具体对象时所需要的数据项集合、各数据项语义定义、著录规则和计算机应用时的语法规定[32]。国外元数据研究较早,比较有影响的元数据标准有:
描述艺术类可视资料的CDWA (Categories for the Description of Works of Art,艺术作品描述类目)VRA Core (Categories for Visual Resources,视觉资料核心类目);
主要适用于网络资源的DC(Dublin Core Element Set,都柏林核心元素集);
适应于地理空间的CSDGM(Content Standards for Digital Geospatial Metadata,数字化地理元数据的内容标准)、CEN地学信息-数据描述-元数据、ISO/TC211地理信息元数据的国际标准等;
用于电子文本的TEL(Text Encoding Initiative,电子形式交换的文本编目标准)和EAD(Encoded Archival Description,编码档案著录)[33]。
我国在2001年初步完成了适用于中国文化特色的《中文元数据标准框架》,国家数字图书馆工程已经完成针对古籍、电子图书、电子连续性资源、学位论文、期刊论文、网络资源等十余个资源类型建立了元数据规范[34]。
随着资源形态的逐渐丰富和数字化需求的多元化,我国的元数据研究成果逐渐丰盈,
如世界范围内第一个以图片视觉内容和语义特征描述为主的图片元数据规范《中文新闻图片内容描述元数据规范》,
适用于描述数字形态的图像资源的《图像元数据规范》[35],
规范博物馆藏品信息采集著录行为的《博物馆藏品信息指标体系规范》,
对文物内容、属性、外在特征进行描述的元数据相关应用规则《文物描述元数据应用规范》[36],
满足国土资源空间信息和非空间信息的特征和技术要求的《国土资源信息核心元数据标准》和《地质信息元数据标准》[37]。
3、运营保障系统
现有的文化数据库大多分散在各领域,以项目共建和各单位自建数据库为主,很多数据库出现了数据更新不及时或停止更新、数据库关闭或不对外开放、数据量小、内容不完备、资源分散、缺乏知识产权意识、缺乏用户隐私保护等问题。其主要原因在于没有建立完备具有实践意义的运营保障系统。
(1)责任主体制度
目前的大多数数据库都是谁建谁负责的责任制度,对于共建项目没有明确各个部分的责任主体,导致资源利用率低、数据无更新或更新慢,而对于自建数据库则往往由于资金、技术专业人员的缺乏而无法保障数据库的有效运行。因此中华文化数据库的建立首先要明确各环节的责任主体。
数据库系统的组成部分分为硬件、软件、数据、用户,结合中华文化数据库的建设目标,可以将中华文化数据库系统分为:资源数据端、用户端、存储端、应用开发端,除此以外,在数据库建设之间还需设置组织端,在数据库关联形成后还需设置监督评估端,每一部分都需要设置明确的责任主体制度。
①资源数据端主体以文化机构和科研机构为主,其主体责任主要包括数据收集、更新、纠错、完善等;
②用户端责任主体以文化教育机构为主,如图书馆、社区、博物馆、艺术馆等提供社会服务和阅读推广的文化教育机构,主体责任主要包括负责数据库的推广和使用、文化场景的体验等;
③存储端责任主体以商业数据机构为主,负责数据库的外部设备和储存空间,包括云存储和物理存储,以满足中华文化数据库数据量大、传输速度快、开放程度高的要求;
④应用开发端责任主体以专业技术机构为主,负责文化数据库的应用开发、管理系统等软件技术,对计算机、大数据等专业能力要求高;
⑤组织端责任主体以政府机构为主,主要负责中华文化数据库有组织、有计划的系统布局,完成顶层设计和统筹协调,打通各领域各机构之间的资源壁垒;
⑥监督评估端责任主体以政府机构和用户为主,健全用户评价、绩效评估机制,构建科学合理的指标体系,对中华文化数据库的内容、利用等方面进行全方位的监督和评价,助力数据库长效健康地运行。
(2)安全保障制度
现阶段大数据产业发展迅速,经济效益不断提升,数据库的安全问题应得到关注和重视。由于技术手段多样化、隐蔽性高、难以防范,可能会造成数据库突发安全问题,并导致大范围高影响的严重损失。中华文化数据库数据量大,责任主体多,各层次权限较为复杂,因此为保障数据库安全,有必要设置层级清晰、控制严格的安全保障策略。
①角色访问控制策略。访问控制是数据库安全保障最基本的内容,一方面要构建角色访问模型,界定访问对象的层级及权限,通过认证识别加以监控其对数据库的访问行为;另一方面要加强用户身份认证,当前数据库普遍采用“ID+密码”的方式进行身份核实,随着人体信息的生物认证安全技术出现,可通过指纹、面部识别的方法,对用户的身份进行判断。
②数据库加密策略。数据库加密技术相对成熟,但是对于中华文化数据库的数据具有多源异构性特点,且跨库检索要求高,因此需要从数据库内的模块加密和数据库外的服务器加密两方面建立完善的加密策略。
③数据库安全防护。数据库安全防护是中华文化数据库的重中之重,主要是防止数据库被攻击和突发损坏,需要建立物理备份与逻辑备份相结合的多重数据备份策略、实时监测与异常情况监测的攻击判断策略、黑白名单多层级防火墙的防护策略。
(3)知识产权保护制度
知识产权保护是资源利用的重要影响因素,尤其是实体资源数字化后的知识产权问题尤其重要。虽然以社会公益为目的,可以在有关法律允许的范围内合理使用信息资源,无需征得著作权人的同意,也无需支付报酬[38],但中华文化数据库为了最大程度上进行推广与使用,将拓宽“文化数字化场景”“文化衍生品”等商业用途,因此不得不防患于未然,提高知识产权风险意识,并做好防范措施。
①非物质文化遗产数字化的知识产权问题。2011年颁布的《非物质文化遗产法》为非物质文化遗产提供法律保护,但对知识产权的规定并未具体细化,仅说明“使用非物质文化遗产涉及知识产权的,适用有关法律、行政法规的规定。”因此,非物质文化遗产数字化的知识产权需要根据其具体形态内容进行界定。如果是非物质文化遗产隶属民事法律中的“物”可采用《物权法》的规定对其进行保护;如果非物质文化遗产是抽象的、无形的,则可采用《著作权法》的相关规定进行保护。但在实际数字资源的开发利用中,对其权利归属、权利范围和权利内容还有待深入研究[39]。
②文物数字化的知识产权问题。历史文物及其体现的历史文化思想并非知识产权的保护客体,因此无法受到《知识产权法》的保护,在《文物保护法》中也未进行规定。但因其文物均有其收藏主体,不管收藏主体是通过再创造或外部购入的方式进行数字化,其知识产权所有权均属于收藏主体。如果文物的思想被他人进行文字、图像、音视频等新作品的重新表达,其再创作作品的数字化知识产权则有待进一步明晰[40]。
③文献资源的知识产权问题。文献是对政治、经济、文化、历史、科技等方面客观而真实的记载,也是中华文化数据库的重要资源组成部分。文献资源数字化的知识产权保护相对较为简单,在《信息网络传播权保护条例》中明确规定了图书馆、档案馆、纪念馆、博物馆、美术馆等的数字作品传播对象和内容,同时《著作权法》《侵权责任法》也作了相应的规定。
④其他文化资源数字化的知识产权问题。中华文化数据库的资源种类多、数据量大、形态丰富,其知识产权问题既需要结合相关法律法规进行实际情况的分析,也需要尊重其民俗约定,同时还需要界定文化资源本身的知识产权与开发成果的知识产权问题。
因此,针对中华文化数据库的数字资源知识产权保护问题,有必要建构一个包括《物权法》《著作权法》《专利法》《商标法》《中医药法》《侵权责任法》《文物保护法》《非物质文化遗产法》等在内的保护方案。
(4)个人信息保护制度
在大数据时代,随着各种传感识别技术的应用,个人信息逐渐变得透明化、公开化,甚至有些个人信息在不知情的情况下被大量泄露。2021年9月1日起施行《中华人民共和国数据安全法》,2021年11月1日起施行《个人信息保护法》(以下简称保护法),两部法律对个人信息数据合理合规的使用提出了法律规范。
①个人信息的保护。
在数据库的利用过程当中,不可避免地需要收集个人信息,《保护法》把“生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息”定义为“敏感个人信息”,并规定“处理敏感个人信息应当取得个人的单独同意”。因此,中华文化数据库在记录个人信息前需对个人信息的收集、存储、使用、传输等具体内容进行告知,并征求用户同意,同时还需要按照规定“采取相应的加密、去标识化等安全技术措施”保护个人隐私。
②个人数据的保护。
《安全法》规定“本法所称数据,是指任何以电子或者其他方式对信息的记录”。因此,当个人信息被记录下来便成为个人数据,成为《安全法》保护的客体。《安全法》没有明确规定个人数据的隐私保护条款,但规定“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。”另外,《网络安全法》《电子商务法》《民法典》中对个人信息提出了相应的规定,在中华文化数据库的开放中,应建立健全个人信息保护制度, 通过制定个人信息安全守则、设置个人信息安全专职专岗、定期进行评估和培训、明确具体使用规定等加强对个人信息的保护,一方面防止对个人信息的过度采集,另一方面满足精准服务的要求。
4、数据治理系统
大数据作为海量性、复杂性、应用性数据的集合,具有种类庞杂、特征多样、互联互通、开源迭代的特点,存在系统性风险、广泛性风险、多样性风险、开源性风险[41]。
中华文化数据库体系庞大、资源海量,包含大量非结构化的数字资源体系,包括中华传统文化资源、中国革命文化资源以及社会主义先进文化资源为主体的多种数字化形态,随着数据商业价值、决策价值、经济价值的逐渐上升,数据治理显得尤为重要。
首先要对文化资源数据全生命周期中产生的问题进行调研。
其次是对文化资源数据质量进行治理,规范数据的管理与审计工作,保证数据质量。
最后还需要建立文化资源数据安全的治理框架,创新治理体系,综合运用多种治理手段,以有效防范数据安全风险。
(1)文化资源数据生命周期
科学数据生命周期是实现科学数据开放共享和增值利用的前提,一般主要包括数据产生与获取、数据描述与组织、数据处理与分析、数据保存与存储、数据 出版与共享五个阶段[42]。但文化资源数据与科研数据有许多异同之处,因此不能照搬科研数据的生命周期理论。
关联形成中华文化数据库的资源整合是一项影响因素众多的系统工程,涉及多个层面的利益相关者。科学地界定文化资源数据的各利益相关者的权利、职责和利益关系,把握文化资源数据的生命周期,才能发现文化资源数据在管理和治理过程中的问题与不足,才能最大限度地实现资源整合和互联互通,才能有效保障国家文化大数据体系建设。
(2)数据质量治理框架
关联形成中华文化数据库,需要横跨多个领域与机构,其数据呈海量、多源、异构的特征,为保证数据库最大限度地开放利用高效共享,必须保证数据真实全面、安全可靠,形成文化资源数据全生命周期的数据质量治理框架,确保所有数据可追踪、可回溯、可查证、可检验。
①设立数据质量标准体系。
开放科学数据的质量标准有准确性、完整性、一致性、及时性、可靠性、关联性、开放可访问性[43],但中华文化数据资源采集的渠道较广,责任主体较多,需根据不同形态的数据建立一般资源的数据质量标准和特殊资源的数据质量标准体系,满足数据采集的便利性和数据开放的安全性。
②设立数据质量剖析机制。
数据剖析是审查源数据与理解数据结构、内容和相互关系以及识别数据项目潜力的过程,也是检查合理的数据位置、数据结构和数据值的过程[44]。充分运用现代技术和智能手段,采用模式识别、机器学习、自然语言处理等技术,对各个来源、不同周期中的数据进行剖析,检查和反馈出现的问题,区分异常数据,并进行标注、提醒、修正和清理。
③设立数据质量审查机制。
确保中华文化数据库高效共享过程中高品质的资源数据,并非易事。还需进一步对照数据质量标准体系,通过建立文化资源质量清单,对中华文化数据库中的各类数据进行审查和督查,结合数据质量剖析技术和用户评价,形成数据质量可追可查的审查机制,发现数据质量的问题、责任主体和改进目标。
(3)数据安全治理框架
《中华人民共和国数据安全法》(以下简称《数据安全法》)已于2021年9月1日起施行,集中全面地体现了当前对数据安全工作的治理思路,为中华文化数据库构建数据安全治理指明了方向。
①分类分级的数据安全机制。
数据安全风险种类繁多,各种突发事件层出不穷,通过主动评估+分类响应的预判机制和实时监测+分级处置的应对机制,构建事前预防到事后处置的全过程分类分级数据安全机制,解决文化资源数据全生命周期过程中数据泄露、数据篡改、数据损坏、非法使用等安全问题。
②数据安全动态治理机制。
大数据时代,传统的数据安全防范和处理办法无法完全保障文化资源数据的安全,面对不断升级的新技术,新风险也随时发生,因此需要根据中华文化数据库开放共享面对的新情况,进行数据安全的动态调整、监控和处理,以适应大数据环境下的安全治理需求。
③数据的共享利用和数据安全之间的平衡。
中华文化数字化成果全民共享,意味着文化资源数据要实现最大限度地开放,意味着数据使用既自由又安全,意味着数据安全防护和数据发展使用必须两翼齐飞,因此必须解决文化资源数据安全使用和开放共享之间的矛盾,必须寻找一个既利于数据有序流动使用,又能通过技术、法规、体制等手段保障数据安全的平衡点。
5、开放共享系统
《意见》明确,到“十四五”末形成线上线下融合互动、立体覆盖文化服务供给体系,到2035年中华文化全景呈现,中华文化数字化成果全民共享、优秀创新成果享誉海内外。
从文化资源的内容供给、数字化加工整理到多终端的广泛传播和全民共享,文化资源走出博物馆、图书馆、文化馆、美术馆和非遗馆,跨越时空限制,让人们随时共享悠久璀璨的中华优秀文化,需要搭建一个推动资源建设、优化配置与高效利用的开放共享系统。了解文化资源数据开放共享的主要障碍,构建兼容、协同、制度化的立体开放共享机制,制定中华文化数据库开放共享的运行管理规范,不断提升中华文化数据库的使用效率和共享水平。
(1)开放共享的障碍
中华文化数据库的数据资源来源于政府机关、文化生产机构、民间文化团体等多个方面的数据供给方,其海量数据由各单位数据中心采用分布式存储方式存储,中华文化数据库对外开放过程中存在必不可少的障碍,如数据中心之间的数据封锁与壁垒、原始数据缺乏索引、数据集访问手续过于复杂、数据冗余现象严重、技术手段缺失等障碍、用途不明、价值难以判断都严重影响了中华文化数据开放共享的能力,必须深入分析数据开放共享的障碍和可能的问题,通过制度规范、技术兼容、主体协同等方法进行规避和处理。
(2)开放共享机制
中华文化数据库的开放共享机制是中华文化数据库与其他系统平台之间的汇交、出版、传播、开放、互享。
①单源数据开放共享,即中华文化数据库根据不同的共享需求开放某一类数据,建立数据开放共享的合作机制,共同约定数据开放的时间、权限和标准;
②协作式数据开放共享,即中华文化数据库与其他系统平台之间建立长期协同合作方式,本着互惠互利的原则,共同促进数据库的利用与传播,在协议基础上开放数据的共享使用。
③商业开放共享,即中华文化数据库将所有数据视为商品,对其进行价值估算,明码标价进行售卖,一方面有利于文化资源数据再利用和价值挖掘,另一方面也使文化机构获得新的收入增长点,为开发更多的文化资源获得经费支持。
④无偿开放共享,即中华文化数据库与公共文化服务机构之间的共享方式,在国家文化专网内,将中华文化数据库的数据资源免费无偿地分发到教育机构、文化馆、图书馆、博物馆等场所,让中华文明数字化成果随处可见。
五、总结与展望
党的二十大报告中“文化”一词频现,再一次强调了文化是民族的精神命脉,是全面建设社会主义现代化国家的精神食粮,是实现中华民族伟大复兴的精神力量。要将中华文化融入社会发展的肌理,将社会主义先进文化、革命文化和中华优秀传统文化进行创造性转化、创新性发展,形成经纬有序、错落有致的文化发展空间格局,建设、关联形成中华文化数据库是必然选择。中华民族有5000多年的文明史,近代以来 180多年的斗争史,中国共产党100年的奋斗史,中华人民共和国70多年的发展史,为中华文化数据库的建设提供扎实、宽广和深厚的基础和底蕴。
中华文化数据库的建设经历初期探索形态的数字典藏数据库,多元发展形态的中国记忆工程,高级过渡形态的数字人文数据库,无论从基础理论研究还是现实实践需求来说,已初具雏形。但是,中华文化数据库的建设不能急于求成,不能一蹴而就,而是需要顶层设计、统筹规划、循序渐进、稳步推进。
盘点中华文化资源,盘清中华文化资产,盘活中华文化资本,实现中华文化的有序化、集中化和增值化,是关联形成中华文化数据库的出发点和落脚点。
中华文化数据库内容丰富、博大精深。
资源汇聚系统是出发点,为中华文化数据库提供源源不断的文化资源;
数据关联系统是着力点,承担着中华文化数据库文化资源连点成线、点线成面的功能;
运营保障系统是立足点,确保中华文化数据库安全畅通运行;
数据治理系统是根本点,贯穿于中华文化数据库数据生命周期的全流程;
开放共享系统是增长点,实现中华文化数据库文化资源价值增值,推动文化产业蓬勃发展。
未来,不断壮大、成熟的中华文化数据库必将是推进数字政府、推动数字中国建设的精神力量和智慧源泉,推动公共文化服务高质量发展的内核和保障,中华文明赓续传播的航标和灯塔,能够满足人民群众日益增长的精神文化需要,提升国家文化软实力和竞争力,有力推进社会主义文化强国建设。
参考文献:
[1]用新的伟大奋斗创造新的伟业[N].人民日报,2022-10-17(006).
[2]中共中央办公厅,国务院办公厅.关于推进实施国家文化数字化战略的意见[EB/OL].[2022-05-18].http://www.ccipic.org/h-nd-783.html. [3]张建新.论中国共产党人提出“文化强国”战略的时代意义[J].毛泽东思想研究,2012,29(6):102-105.
[5]云杉.文化自觉文化自信文化自强——对繁荣发展中国特色社会主义文化的思考(中)[J].红旗文稿,2010(16):4-8.
[6]习近平在第二届世界互联网大会开幕式上的讲话[N].人民日报,2015-12-17(02).
[7]国务院关于加强数字政府建设的指导意见.[EB/OL].[2022-07-09].http://www.gov.cn/zhengce/content/2022-06/23/content_5697299.htm.)
[8]对话:构建公共文化服务体系[N].中国文化报,2005-04-28.
[9]中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要[N].人民日报,2021-03-13(001).
[10]赵一方,王铮,裴雷.政策计量视角下公共文化服务政策内容主题分析[J].图书情报工作,2020,64(10):66-74.
[11]李国新.筑牢公共文化服务高质量发展的基础——《国家基本公共服务标准(2021 年版)》中的基本公共文化服务[J].图书馆研究与工作,2021(7):16-19.
[12]习近平.在第十三届全国人民代表大会第一次会议上的讲话[N].人民日报,2018-03-21(002).
[13]黄意武.全球文化格局视域下增强中华文化认同的实践进路[J].治理现代化研究,2022,38(3):58-64.
[14]中共中央关于党的百年奋斗重大成就和历史经验的决议[N].人民日报,2021-11-17(001).
[15]习近平.论坚持推动构建人类命运共同体[M].北京:中央文献出版社,2018:82-83.
[16]缪其浩.我们应当有一个数字式图书馆国家计划[J].图书馆杂志,1996(4):6-8.
[17]李郎达.Metadata与数字典藏[J].情报科学,2002(12):1263-1265,1267.
[18]李冬红,黄玉华.论地方图书馆的特色数据库建设——从建立“沈阳文学艺术文库数据库”想到的[J].图书馆学研究,1998(3):42-43.
[19]徐惠枝.建立专题数据库深入开展特色服务[J].乐山师范高等专科学校学报,1999(2):86-88.
[20]黄晓斌,蒲筱哥.我国图书馆特色数据库建设的现状、问题与对策[J].情报科学,2007,(5):784-789. [21]赵海林.“世界记忆工程”与“中国档案文献遗产工程”[J].档案,2001(6):1.
[22]赵新力,李雪,杨开荆.国内外记忆工程的历史与现状[J].徐州师范大学学报(哲学社会科学 版),2009,35(1):135-143.
[23]江苏文化数据库[DB/OL].[2022-07-09].http://www2.jslib.org.cn/was5/web/jswh.htm.
[24]韩尉.中国记忆项目文献资源推广的探索与实践[J].国家图书馆学刊,2015,24(01):28-31.
[25]王洁.大数据思维与数字人文的加值应用——传统文化数据库发展的新趋势[J].图书馆理论与实践,2018,(5):104-108.
[26]范佳.“数字人文”内涵与古籍数字化的深度开发[J].图书馆学研究,2013,(3):29-32.
[27]欧阳宇光.河南省中华优秀传统文化数据库建设研究[J].信阳农林学院学报,2022,32(1):150-153.
[28]刘煦赞.“福建文化记忆”工程建设实践及推进设想[J].图书馆学研究,2012,(20):44-47.
[29]王明,袁旭升.非物质文化遗产影像诠释的态势及效用分析——以贵阳市非遗数据库建设为例[J].电影评介,2020(16):93-96.
[30]王春迎,朱坤豪,周知.我国省级公共图书馆红色文化资源建设与发展研究[J].图书馆学研究,2022,(2):38-47,67.
[31]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011,29(2):5-12.
[32]肖珑,陈凌,冯项云,冯英.中文元数据标准框架及其应用[J].大学图书馆学报,2001(5):29-35,91.
[33]冯项云,肖珑,廖三三,庄纪林.国外常用元数据标准比较研究[J].大学图书馆学报,2001(4):15-21,91.
[34]李轶维,王武魁.GIS元数据标准综述[J].科技信息,2011,(5):22-24,417.
[35]赵悦,申晓娟,胡洁,李丹等.数字图书馆推广工程标准规范体系建设规划与实践[J].国家图书馆学刊,2012,21(5):46-53,59.
[36]王荣群,李婷,魏蕊.图像数据库元数据元素集调查研究和改进建议[J].数字图书馆论 坛,2022(3):15-21.
[37]练洁,李娉,赵星宇.革命文物元数据标准研究[J].中国博物馆,2021,(3):12-19,142.
[38]袁满,李盛锐,刘小野.地质知识图谱标准化模型研究[J].吉林大学学报(信息科学版),2021,39(2):215-222.
[39]曹铁娃,刘家新.高校地域文化资源专题特色数据库建设探讨——以天津大学图书馆“中国建筑特色数据库”建设实践为例[J].图书馆工作与研究,2009,(5):69-73.
[40]孙雯,葛慧茹.数字化时代非物质文化遗产知识产权保护的再思考[J].艺术百家,2020,36(5):194-199,204.
[41]徐棣枫,谭缙.传承与创新:博物馆文创产业的知识产权创造和保护[J].东南文化,2020,(6):178-184.
[42]王欣亮,任弢,刘飞.基于精准治理的大数据安全治理体系创新[J].中国行政管理,2019,(12):121-126.
[43]聂云贝,刘桂锋,刘琼.数据生态链视角下科学数据生命周期运行过程分析[J].信息资源管理学报,2021,11(2):69-77.
[44]刘冰,庞琳.国内外大数据质量研究述评[J].情报学报,2019,38(2):217-226.
[45]盛小平,田婧,向桂林.科学数据开放共享中的数据质量治理研究[J].图书情报工 作,2020,64(22):11-24.
作者简介:
刘琼,女,1986年生,汉族,安徽安庆人,江苏大学图书馆,馆员,硕士,主要从事科学数据研究,地址:江苏省镇江市学府路301号,212013;
刘桂锋,男,江苏大学图书馆教授研究馆员,硕士生导师,江苏镇江 21203
卢章平,男,江苏大学图书馆教授,博士生导师,江苏镇江 212013
周云峰,江苏大学图书馆,馆员,硕士,江苏镇江 212013
上一篇:内蒙古“大国重器”闪耀中国航展
下一篇:以科技践行国家文化数字化战略
运营机构:鄂尔多斯国家级文化和科技融合示范基地管委会
Email:ordoswh123@163.com 服务电话:0477-8394929