39 数字人文研究框架探析与思考社科职称论文发表_职称驿站
论文发表指导_期刊投稿推荐_期刊论文发表咨询_职称驿站

论文发表指导,期刊推荐,国际出版

职称驿站学术导航
关闭职称驿站导航

论文发表职称晋升 全方位咨询服务

学术出版,国际教著,国际期刊,SCI,SSCI,EI,SCOPUS,A&HCI等高端学术咨询

数字人文研究框架探析与思考社科职称论文发表

来源:职称驿站所属分类:社会学论文
发布时间:2018-07-31浏览:48次

   [目的/意义]数字人文是一种新型研究范式,需要对其研究价值、驱动模式、成果质量、知识服务等进行思考。[方法/过程]透视数字人文的研究机理,基于独立性和关联性原则描述数字人文的研究框架,认为其由网络计算存储层、人文学理层、资源层、问题层、模型层等 11 个相互独立又相互影响的功能层组成,并对各层次的功能、特点、相互关系进行分析。[结果/结论]数字人文融合人文专业和信息技术专业知识,其研究有不可替代的价值;人文学理在数字人文研究中起主导作用;数字人文研究存在很多风险点,成果质量需控制;需要建立新型交流评价机制。本文还给出学科馆员和出版商参与建设数字人文项目的可操作路径。

人文杂志

  《人文杂志》The Journal of Humanities(月刊)1957年创刊,是我国唯一以“人文”冠名的学术理论刊物。悠久的历史文化积淀,形成了它厚重、大气的独特风格。自1957年创刊以来的近半个世纪,它一贯明确倡导彪炳人文精神,传承中华文明,践行学术研究中的学术性、思想性和原创性,以质衡文,出精品,创一流,积极地参与到当代中国人文社会科学的进程之中,做出了自己的贡献。

  1 数字人文兴起及其带来的困惑

  数字人文起源于 20 世纪 40 年代意大利著名人文学者罗伯特·布撒神父(Robert Busa) 提出的“人文计算”这个概念,其目的是:将学者从繁杂琐碎的资料收集整理工作中解脱出来;专注于提出问题和学术发现;极大地提高研究效率,促进学科发展[1]。之后,数字人文在语言学领域获得较多研究和应用。2009 年微软研究院出版了《第四范式: 数据密集型科学发现》( The Fourth Paradigm: Data-intensive Scientific Discovery),提出了基于数据密集型计算的科学研究“第四范式”。数据驱动的科研发现和基于研究数据的知识管理,已经成为许多领域的重要基石,包括人文社会科学领域[2]。数字人文,作为人文学科研创新的研究范式,备受关注。例如,在“知网”中以“主题=数字人文 OR 人文计算”为条件检索,文章发表趋势如图 1 所示。可以看出,自 2009 年开始,数字人文在中国逐渐受到关注,2014年开始,发文量增长凸显且不断上升。

  当前,人文领域、图书情报领域和数字出版领域都对数字人文表示出浓厚的兴趣。北京大学图书馆于2016年5月和2017年5月主办两届数字人文论坛,主题分别是“跨界与融合:全球视野下的数字人文”、“互动与共生:数字人文与史学研究”;2015年以来,《中国社会科学》《清史研究》《史学月刊》《中国史研究》《图书馆论坛》等期刊纷纷开设研讨数字人文或者数字学术等方面的专题;2016年1月,哈佛大学、北京大学和台湾“中研院”三方合作组建的“中国历代人物传记数据库”(CBDB)项目组在北大举办“数字人文工作坊”,定期进行培训和宣讲,更是将数字人文研究推向高潮;2016年,新闻出版广电总局提倡“关注知识挖掘与发现、知识关联与重组、知识应用与管理、自然语言理解与深度学习等技术;关注主题词表、叙词表、本体建设等工具;关注知识资源加工、资源管理、产品运营与服务管理等系统;关注知识服务模式创新”[3],其实质也是服务“数字人文”等数字学术;国外数据库商和搜索商也推出JSTOR Data For Research,Gale Scholar,Google Book Search等服务;香港科技大学李中清、康文林教授研究团队“清代缙绅录量化数据库”项目、台湾“中研院”的“清代职官数据库”、厦门大学刘海峰教授领导的“清代举人数据库”、南京大学梁晨参与的“民国上海大学生信息数据库”、复旦大学的中国历史地理信息系统(CHGIS)、上海图书馆家谱平台、中国社会科学院当代中国研究所的中华人民共和国国史知识库等在数字人文方面作了较深入的探索,并取得有影响的成果。

  尽管如此,数字人文在学界仍然是“费力叫好,但不卖座”。很多数字人文项目在可视化呈现后,读者在兴奋之余会追问:这些漂亮的图形说明了什么问题?解释了什么?有什么价值?有些发现难道不是常识吗?“数字典藏国家型计划”是由台湾地区学术界与政府联合推动的大型“数字人文”项目。该项目投入巨大,也整理出了浩瀚的史料,但多年来,不仅一般史学家对此兴趣不大,在研究中很少利用,甚至那些参与了这一庞大项目的史学家们也几乎不借助这些新资源、新平台开展研究[4]。另外,同样是数字人文研究范式,为什么会对同一个问题得出不同的结论?怎么评价这些数字人文的发现?例如,在对《红楼梦》文本进行挖掘后,不同学者在“后四十回的作者是谁”问题上得出迥然不同的结论:陈炳藻先生推断作者均为曹雪芹;深圳大学专家得出“前八十回与后四十回语言风格存在明显差异”;李贤平先生推断“后四十回是曹家亲友整理原稿并加工补写而成的” [5]。一些在数字人文方面有所研究和实践的学者开始质疑数字人文的未来走向,王涛认为,人文学界应该对数字史学作一些“破坏性”的反思,当前数字史学过分强调“数据驱动”,没有完成史学研究的“论证驱动”任务,只有以真正问题意识为指引,而不是未来卖弄数字工具的噱头,才能带来更专业的学科成果[6]。有学者认为,数字人文“优点与风险同样突出。优点是可以处理大量散乱无序的数据,更规范地揭示历史表象背后的一些演变轨迹,风险是由于处理的数据量太大,

  一个假设或关键数据错误,就会导致整个研究价值大打折扣。”“量化研究可能将无数个活生生的人,变换成冷冰冰的数字,而使史学失去了对“人”的核心关注,失去了温度。”[7]图书馆界为“数字人文”成为学科服务的新增长点而兴奋,同时又困惑如何启动数字人文服务。能力不足[8],角色定位不清、组织机制缺乏、人才稀缺等[9]成为图书馆对数字人文研究的“热情有余,参与不够”的重要原因。面向数字人文研究的语义出版,由于盈利模式和市场定位不清晰,大多数项目仅仅停留在探索阶段,中华书局的“二十四史”本体项目,自2014年结项以来,一直停留在学术探讨[10]和宣传阶段,未进入产品销售环节。

  本文拟透视数字人文的研究机理,在给出数字人文的研究框架基础上,描述数字人文研究中各个层次模块及其之间的关系,试图尝试回答如下问题:

  ●如何看待数字人文在人文学科研究中的作用?数字人文与人文学科本身的学理之间是什么关系?数字人文是研究之“道”,还是研究之“器”?数字人文研究范式是数据驱动范式还是问题驱动范式亦或论证驱动?数字人文除了印证观点外,还可以发现知识吗?如果仅仅印证常识,数字人文研究还有价值吗?

  ●同样是数字人文研究方法,对同一问题,为什么最终结论不同?哪些因素影响数

  字人文研究的成果质量?

  ●如何评价数字人文的成果?什么样的数字人文成果是可信的?

  数字人文研究的主体是谁?学科馆员在数字人文中的角色定位是什么?学科馆员

  参与数字人文研究的起点和抓手在哪?能做哪些工作,怎么做?

  ●如何看待语义出版在数字人文中的作用?语义出版如何获得数字人文研究者的

  关注和支持?

  数字人文研究框架描述了数字人文研究的大致过程,分析了该研究范式所需要的条件和要素,界定了数字人文研究范式中各个相对独立的功能层,并给出功能层之间的相互作用关系。基于研究框架对数字人文的透视与思考,分析了数字人文研究范式与传统人文研究范式的不同之处,凸显其独特研究价值;同时指出,数字人文研究中人文学理的主导作用和人文专业知识积淀的重要性;本文为学界评判数字人文成果质量提供更加清晰的视角,为数字人文研究的风险控制提供参考意见;在此基础上,为人文学界和知识服务领域(学科馆员和出版商)参与建设数字人文项目提供可操作的路径。

  2 数字人文研究框架

  随着数字人文实践的深入,越来越多的学者开始探讨数字人文的知识结构。Willard McCarty绘制数字人文的知识地图,指出“文本分析”“数据库设计”“数值分析”“图像化”等是数字人文的“共同方法论”(Methodological Commons) [11]J.Unsworth用七个“学术原语”( Scholarly Primitives)来概括数字人文常用的基本方法:“发现” “注释”“比较” “参考”“抽样”“说明”和“表示”[12]。刘炜等认为数字人文的技术体系主要包括数字化技术、数据管理技术和数据分析技术、可视化技术、VR/AR技术、机器学习技术等,理论结构涉及结构化或再造人文、数据化或计算人文、可视化或形象人文、拟实化或增强人文、智慧化或扩展人文,应用覆盖资源富集、知识重构、场景重建、增强艺术等[13]。本文认为,在上述知识结构分析基础上,统筹考虑技术要素、人文学理要素及其相互作用,进一步透视数字人文的研究机理,才能剖析上述困惑的原因,促进数字人文研究行稳致远。

  基于独立性和关联性原则,本文给出数字人文的研究框架(如图2所示)。所谓独立性,就是从学科角度,此模块并不是数字人文研究范式特有的,可以自成体系,并被其他学科(自然科学或社会科学)所研究或所运用;所谓关联性原则,指的是通过某个模块与其他模块的组合或相互作用,构成数字人文的研究范式,模块之间的关联不是1:1,而是m:n。

  需要说明的是,当前数字人文在文化遗产展示、考古遗址虚拟呈现、文物修复、3D游戏辅助舞蹈研究等领域有丰富的实践。J.Unsworth 2002年关于“‘人文计算’是一种代表性的实践、一种建模/模拟的方式,一种推理、一个本体论约定。这种代表性的实践可分为两个方面,一方面是高效的计算,另一方面是人文沟通” [14]。的观点仍然有适用价值。本文探讨的数字人文研究框架主要基于“高效的计算”方面。

  数字人文的研究框架描述了数字人文的研究过程。因为各个环节或节点都有自己相对独立的体系和功能,所以数字人文的研究框架可以看作由多个相互作用的功能层组成。数字人文的研究框架包含网络计算存储层、人文学理层、问题层、模型层、资源层等11个功能层,底层支持其上层,部分功能层影响其他多个层。基本的研究过程是:基于网络计算存储层的技术条件,在人文学理层的主导下,面向问题构建模型;在模型指导下,从资源层抽取知识单元;基于模型和算法选择平台工具,再利用知识单元层的数据进行计算,生成数据报告,供解释发现;解释发现后的人文成果在人文学术界交流并被评价。在具体的数字人文项目中,各层次的先后顺序可能略有不同。

  1)网络计算存储层。网络计算存储层突出载体、计算能力和通信手段,其中数字化载体、机器计算是开展数字人文的的基本条件,如 Robert Busa 的索引方法。当前,网络计算存储层由互联网、云计算、海量存储三要素组成,是数字人文走向成熟的时代背景。

  2)人文学理层。数字人文是跨学科的融合研究范式,但无论技术如何影响人文研究,数字人文无法抹杀传统专业的固有特色,每个学科都有自成体系的方法、工具与研究旨趣[6];人文学科本身的问题意识、思辨模式、人文关怀、价值体系等影响着数字人文研究中的资源选择、知识单元的标引、研究问题的提出、模型的构建,尤其影响数字人文计算结果的解释和新知识的发现,以及学术界对数字人文成果的最终评价。离开人文学理的主导,数字人文仅仅停留在“从数据到数据”的华丽热闹,不会真正实现人文研究的“信息转向”。量化史学界的活跃学者李中清等认为“研究者需要有对特定历史背景的准确把握,才能选择合适的定量分析方法并正确解读分析结果”[15]当前,很多年轻学者认为数字人文的“快读”“遥读”能够代替传统人文的“慢读”“细读”,希望通过数字人文另辟蹊径,快出成果,反而适得其反,与数字人文的初衷背道而驰。

  3)资源层。当前的资源层主要指以版权为单元的数字化的资源,比如电子书库、期刊库,标引层次多为版权元数据,数据类型包括数值型数据、文本数据、视频数据、音频数据、图像数据。大数据不是黄金,是石油,需要提炼挖掘才能获得各种丰富的价值。资源层之上的各层,就是在做淘金的事,淘金的目的就是获得对人文研究有价值的数据,所谓有价值,就是有利于印证人文学科的一些论断或者能够提供知识发现的线索。

  需要指出的是,随着数字人文的观念被学术界、出版界、图书馆界逐渐接受,资源层在构建之初就可能受到人文学理层、模型层的影响,产生很多面向特定研究的数据库,这些数据库在知识单元分割时尽量碎片化,在元数据设计时尽量包含各种具有研究旨趣的要素,成为研究型数据库资源。例如,History Vault和DNSA(Digital National Security Archive)同为美国外交档案数据库,都收录了中美建交时期的档案,大部分内容重复,但是二者的标引粒度不同,History Vault基于卷宗标引,一个包含100多页的档案卷宗作为一条记录标引,且标引字段比较少;DNSA标引粒度很细,往往对每个档案文件单独标引,DNSA关于主题和摘要的标引反映了很浓的学科色彩。其根本原因是DNSA是美国国家安全档案馆(一个智库)的研究人员根据需要建立的资源库,利用DNSA的元数据可以直接开展一些数字人文研究。

  4)问题层。数字人文学界比较活跃的年轻学者梁晨认为,传统的人文学科研究通常是对已知人类社会现象的理解和解释,是“问题驱动”的研究范式。量化数据库研究不同,它从大规模、系统化史料的统计、运算出发,通过数据分析发现新的史实或现象,再以此为基础,重构我们的历史认知与理论,是一种“数据驱动”下侧重于发现而非解释的新研究范式[16]。本文认为,数字人文研究中,问题意识仍然非常重要,与传统人文不同的是,这里的问题应该不仅仅包括如何对一些学术论断或假设进行印证,还包括如何对人类社会现象要素之间的相关关系进行探索或显性呈现。基于这样的认识,“问题驱动”和“数据驱动”的二者关系是可以统一在“论证驱动”之下的,是大数据背景下的人文学理的一种论证范式,可以看作是“基于问题的数据型论证范式”。也就是说,数字人文研究基于问题(一个或多个),构建相关基于数据的模型,驱动知识单元层或者资源层的数据生成,进行计算,再回到问题本身,利用人文学理进行解释发现,最终获得人文研究成果。另外,数据本身也能衍生出新的学术问题,促进学术发展。

  当前,完全没有问题意识构建的量化数据库容易陷入技术学派“自说自话”的小圈子,这是语义出版和很多数字人文项目的盲点所在,也是数字人文项目建设中的难点。过于具体明确的问题,容易使数据库或知识单元层的设计单一,如果学界提出新问题,数据就面临重新加工。因此,充分的调研,尽量挖掘问题意识,是实现高质量数字人文项目的起点。

  5)模型层。模型构建,依据人文学理,面向问题,背靠数据,体现的是一种利用数据解决问题的具体思路。模型影响知识单元层的信息抽取、编码,模型与算法共同决定最终支持平台工具的选择。从问题层上升到模型层,是数字人文区别于传统人文研究的标志,这需要研究者有深厚的人文素养和对信息技术较为深入的了解。第三代年鉴学派的领军人物之一的勒华拉杜里曾预言“未来的历史学家要成为程序员”,这个设想并不现实[17],但是数字人文研究中的模型构建者必须熟悉数字技术,并能恰当地应用在相应的人文领域,合理地回应相关问题。模型构建体现的是数字技术与人文学理高度融合,是实现高质量数字人文项目的关键。

  当前,有5种数字技术常被数字人文引入,一是量化分析,二是文本分析,三是GIS空间分析,四是社会网络分析,五是知识组织技术。这些技术可灵活组配,支持丰富的数字人文研究。随着数字技术的发展和数字人文的进一步实践,会有更多新的模型构建思路涌现。根据笔者在数字史学领域的实践,现列举几种在历史领域可以考虑的建模思路。

  ●通过人物同现的社会网络,研究重要人物的社交关系;

  ●通过术语同现的社会网络,研究重要术语之间的关联;

  ●通过发文机构同现的社会网络,从政策协同角度研究政府管理;

  ●通过新词发现,研究重要文献,发现思想流变;

  ●通过自动分类,对文献进行汇总梳理;

  ●通过文本比较,研究版本变化中的社会思潮变化;

  ●通过构建领域本体,可视化呈现并发现新知识,实现“精读”;

  ●通过自动摘要、词云标签,快速呈现文本大意,实现“遥读”(Distant Reading);

  ●通过经济社会文化的发展数据的 GIS 分析,发现地域与历史要素的关联;

  ●通过经济社会文化的发展数据的统计和相关性分析,发现历史要素之间的关联和承接;

  ●利用正则表达式抽取历史文献中的实体,如人名、地名、年代等,并建立实体之间的关系。

  6)知识单元层。知识单元层是基于概念的知识组织形式,是数字人文的计算对象,其内容来源于资源层,或采用人工标注,或通过模型经过算法从机器获得(包括自动获得和深度学习),其结果就是量化数据库。知识单元层的内容是直接参与计算的,其质量直接影响到计算结果。知识单元层的设计和构建,是实现高质量数字人文项目的基石。

  知识单元层的构建主要涉及信息组织技术,元数据和知识组织体系设计至关重要。但是,知识单元层设计和构建离不开学科专家和技术专家的配合,例如,中国历代人物传记数据库CBDB利用正则表达式“(元祐|绍兴|...)[0?]+年卒”自动抽取历史问题中的实体,这样的正则表达式就是学科专家和技术专家共同设计的。

  知识单元层的构建是费时费事的工作,目前,部分工作可以通过自然语言处理完成,但大多数工作仍然需要人工干预。另外,规范标准的建立尤其重要,同形异义、同义异形的消歧不当,会严重影响数字人文的计算结果。

  7)算法层。模型的实现需要算法支持。同一种模型,可能有若干种不同的算法,而算法的效率严重影响模型的实现效果,从而影响数字人文的计算结果。例如,文本分析的基础是分词,汉语分词有图 3 所示若干种算法,没有一种算法是完美无缺的,现实应用中往往会将几种算法结合在一起。社会网络在作聚类计算时,也有不同算法,其计算结果有时差别很大。因此,在数字人文项目中,对算法有基本了解,并恰当匹配模型,才能发挥数字技术最终的价值。

  8)平台工具层。平台一般指大型项目,基于框架模型,为实现某种功能,利用语义网技术、关系型数据库技术、协同工作技术等设计的工作环境,比如 CBDB 编辑平台,国史知识库编辑平台[18];工具一般指为实现特点数字技术而设计的个性化程序,多以开源为主,目前很多年轻学者喜欢使用此类工具,例如,语料库语言学方面有 WordSmith,AntConc;文本分析方面有 ICTCLAS 中文分词,Rost Content Mining;统计和相关性分析方面有 R 语言,SPSS;社会网络分析有 Pajek,UCINET;GIS 分析有 Google Earth,Worldmap,地图慧等;本体构建有 Protege。文献[8]给出了数字人文部分工具列表。选择平台工具时一定要了解基本原理和所适应的场合,不知其详地使用平台工具,只会得到华而不实的计算结果,实际上是“以其昏昏使人昭昭”。

  9)计算层。人文专业学者使用相关工具和平台,基于知识单元层的数据,得到初步的定量分析报告。这份报告是依赖工具平台和知识单元层的数据,按预定过程,机器自动生成的,人工不得干预。在史学领域,其计算的结果可以辅助编年体著作的编纂、词汇概念演变的梳理、史源的追溯,以及史学知识的普及[7]等。

  10)解释发现层。在计算层的报告基础上,人文学者结合学科本身的学理进行思辨、比较,印证相关假设或发现新的知识。解释发现层的用户不再是信息技术人员,这就回归人文学科自身的逻辑。对于这点,学科馆员都有深刻体会,学科馆员在使用文献计量学方法分析学科发展脉络时,最擅长分析的就是图书情报学科,因为我们有这个学科的专业背景,如果分析其他学科,一般都请相关专业人员一起参与。

  11)交流评价层。 数字人文的结果数据应该具有与自然科学的实验数据一样的特点,那就是可重复、可检验,也就是说,作者最好公开数据、实验方法和具体计算过程,让读者可以还原结果数据的生成过程。交流评价层的功能就是在业界建立公开数据的标准,建立公开计算方法和过程的机制,让更多的学者对数字人文的各个环节进行评价,还原计算过程,最终才能对数字人文的成果给出客观判断。交流评价层的真正建立是数字人文成熟健康发展的标志,这需要打破传统人文成果的传播评价体系,推广包含数据出版的增强出版等形式,探索替代计量等评价模式。

  3 思考与建议

  3.1 数字人文的研究价值

  数字人文研究框架中的计算层的结果,可以较快给出海量文献中的概貌、脉络或各种关联,实现所谓“遥读”,起到“望远镜的”作用;也可以显性给出海量文献中的细节或不易察觉的蛛丝马迹,起到“显微镜”的作用。在历史研究领域,专门有学者评价过“望远镜”和“显微镜”二者的研究视野差异[19]。本文认为,无论是“望远镜”和“显微镜”,都是“器”,只有与人文研究的学理结合起来,才能回答人文领域的相关问题,才能彰显人文情怀。

  数字人文研究框架中的问题层不仅局限于传统的假设性命题,更包括创新研究的方法性命题,这些命题驱动数据的设计和计算,计算结果包括印证型和发现型两种,从而促进人文学科向“求是型学术”[17]学科延伸。有的数字人文研究只印证了某些常识,本文认为,这种量化研究还是改变了传统质性研究过于倚重主观感悟的特性,具有重要价值。

  3.2 数字人文的成果质量

  数字人文研究框架中各层相互独立又相互影响,每一功能层的不完善都会影响其他功能层,最终严重影响计算结果,从而影响判断和论证,所谓“失之毫厘,谬以千里”。当前,数字人文项目容易出现以下硬伤:

  ●资源层的数据质量良莠不齐,很多古籍数据库在识别原报刊字迹上也存在诸多纰漏或错误[20];

  ●用户对检索逻辑了解不够,选材失当或缺失清洗环节;

  ●知识单元层概念体系设计不合理,缺少消歧处理,标引粗糙有误;

  ●使用者人文学科功底浅薄;

  ●选择模型出错;

  ●模型正确,但对底层算法的原理和缺陷不了解;

  ●对可视化原理理解不透,盲目使用相关平台和工具;

  ●对计算结果解释论证出错等。

  这些硬伤都会成为数字人文项目的风险点。对风险的控制,是数字人文研究的难点。以下例子(虽然不是人文科学)可以说明模型层出错带来的问题。2009 年 2 月,谷歌

  公司的工程师们在国际著名学术期刊《自然》上发表了论文《利用搜索引擎查询数据检测禽流感流行趋势》,并设计了流感预测系统(Google Flu Trends,GFT)。2013 年 2 月 13 日,《自然》发文指出,在最近(2012 年 12 月)的一次流感爆发中谷歌流感趋势不起作用了。 GFT 预测显示某次的流感爆发非常严重,然而疾控中心(CDC)在汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。人文科学的研究对象与流感查询一样,往往是二级混沌系统。一级混沌系统是“不会因为预测而改变”,比如气象系统;二级混沌系统是“会受到预测而改变的系统”,如股市、人类历史。

  因此,学界对数字人文应该采取“开放、客观、专业、审慎”的理性态度,既要以开放的心态接受新事物,又要客观看待这种研究方法,同时要融合人文专业和信息技术专业的知识,审慎评价数字人文的研究成果。

  3.3 学科服务与数字人文

  从数字人文研究框架可以看出,人文学者是数字人文研究的主体,但是,人文学者在选择数据、清洗数据、组织数据、构建模型、设计算法、挑选工具、解释数据等各种能力上存在不足。学科馆员的专业特长就是进行信息组织,数字人文更加侧重面向特定人文研究的信息组织;数字人文框架中的模型层、算法层、平台工具层的很多功能(文本分析、空间分析、社会网络、知识图谱等)与文献计量学很接近,甚至可以看作是一种移植,学科馆员有能力参与数字人文建设;另外,学科馆员本身具备一定的人文学科素养,同时身处本单位的科研环境之中,这些充分说明学科馆员能成为数字人文研究的最佳助手。

  另外,从学术型图书馆发展路径看,过去 30 年间的图书馆史可谓是图书馆向数据库厂商、数据商不断让渡技术能力与数据资源的历程[8];近年来,出版商又通过语义出版、协同出版等进一步“入侵”科研内容产业链的上游,其目的是推动内容产业链变形,最终成为出版社主导的闭环。学科馆员必须把参与数字人文研究作为学科服务的一部分,为学科服务注入新的活力。

  关于学科服务参与数字人文的切入点,业界普遍认为,从特藏数据入手比较合适,所谓“藏而优则研”。本文认同此观点,在此谈谈一些经验和教训。

  1)特藏建设一定要有“问题意识”,特藏库建设包括数字人文研究框架中的资源层和知识单元层建设,学科馆员要加强对人文学者问题层和其上模型层的调研。理论上,资源层和知识单元层的知识组织与问题层和模型层的需求之间存在悖论,建库之初的信息组织会跟不上需求。因此,在时间和经费允许的情况下,尽量标引知识单元,是面向数字人文的特藏建设的关键。

  2)激发人文学者的数字人文意识。通过工具构建数字人文项目的原型系统,让学者看到数字人文的“望远镜”“显微镜”等作用,促发研究灵感。

  3)学科馆员有义务参与管理和把控各功能层的风险,避免出现硬伤,最终影响数字人文成果的质量。例如,在古籍特藏数据库建设中,可以使用一些数字人文手段,进行古籍版本校勘、文字识别等[21];在信息组织时,建立特色名称规范文档;知识单元层的数据一定要注明其在资源层的来源,增加数据的可信度;在机器自动进行信息提取时,要研究算法模型的功效;要认真研究模型、算法、工具的支持度、可信度,例如,文本分析时,不能选用普通的面向检索的分词词典,应选用包含术语的分词词典;在选取素材时,考虑到库结构特点和检索逻辑,等等。

  学科馆员不一定是具体代码的编写者,但一定要深入研究数字技术或工具背后的原理,在信息技术领域,新概念层出不穷,学科馆员一定要深入理解这些概念,避免陷入被动。比如,社会网络模型和知识图谱模型是两个容易被混淆的模型。社会网络模型的理论基础是矩阵和图计算,反映的是实体之间的二元关系,常用于词语同现、作者同现等场景,通过网络结构分析,可得到中心性、影响力、凝聚子群等指标,起到“望远镜”的作用;知识图谱的理论基础是本体技术,以三元组形式描述,呈现的是实体之间的关系,通常用于知识发现,起到“显微镜”的作用。前者可计算,后者重查询,二者都通过可视化化呈现,后者经同属性简化,可转换成前者。

  3.4 语义出版与数字人文

  语义出版就是将内容碎片化,深度挖掘内容之间的关联,并通过平台提供服务,其本身有助于实现数字人文研究框架中交流评价层。大多数语义出版项目存在问题意识不够,服务对象、服务目标不明确,市场定位不清晰等问题。当前,这类项目多由政府扶持。获得数字人文研究者的关注和支持是语义出版项目成功的关键。与学科服务参与数字人文一样,出版商应该充分调研人文学者的问题,挖掘潜在需求,在时间和成本允许的条件下组织信息;请人文学者对原型系统提建议;后期要更加重视模型、平台工具建设,尤其要提供可组合的模型或工具,方便用户自己设计数字人文项目;在销售环节,应该约请学者利用语义出版开展数字人文研究,所发表的成果就是对语义出版项目的推广。□

  参考文献

  [1] WINTER TN.Roberto Busa, S.J., and the Invention of the Machine-Generated Concordance [EB/OL].[2017-04-03]. http://digitalcommons.unl.edu/cgi/viewcontent.cgi?article=1069&context=classicsfacpub. [2]HEY T, TANSLEY S, TOLLE K.第四范式: 数据密集型科学发现[M].潘教峰,张晓林,等,译.北京:科学出版社,2012.

  [3]关于开展首批新闻出版业科技与标准重点实验室申报工作的通知[EB/OL]. [2016-10-20] http://www.sapprft.gov.cn/sapprft/contents/6588/306381.shtml.

  [4]项洁.《数位人文研究的新视野: 基础与想象》序.台北,台湾大学出版中心,2011.转引自梁晨.量化数据库:“数字人文”推动历史研究之关键[J].江海学刊,2017(2):162-164.

  [5]用数学方法探究《红楼梦》的作者问题[EB/OL]. [2017-04-03].

  http://blog.sina.com.cn/s/blog_6e6c49450100rs5y.html.

  [6]王涛.“数字史学”: 现状、问题与展望[J].江海学刊,2017(2):172-176.

  [7]姜萌. 中国史学在数字化时代的变与不变[J].史学月刊,2017(5):14-19.

  [8]肖鹏,彭嗣禹,王蕾. 基本原则与关键问题——学术型图书馆馆员如何启动数字人文项目[J]. 图书馆论坛,2017,37(3):20-25.

  [9]邓要然,李少贞. 美国高校数字人文中心调查[J]. 图书馆论坛,2017,37(3):26-34.

  [10]董慧,徐雷,王菲等.语义分析系统研究(Ⅲ)——中华史籍语义分析系统实现[J].情报学报, 2014,33(2):204-214.

  [11] MCCARTY W.Humanities

  computing.[EB/OL].[2017-12-29].http://www.mccarty.org.uk/essays/McCarty,%20Humanities%20co mputing.pdf.

  [12]UNSWORTH J.Scholarly primitives: what methods do humanities researchers have in common,

  and how might our tools reflect this?

  [EB/OL].[2017-12-29].http://people.virginia.edu/~jmu2m/Kings.5-00/primitives.html.

  [13]刘炜,叶鹰.数字人文的技术体系与理论结构探讨[J].中国图书馆学报,2017,43(5):32-41.

  [14]UNSWORTH J. What is humanities computing and what is not?. [EB/OL]. [2017?2?5] http://computerphilologie.uni﹎uenchen.de/jg02/unsworth.html.

  [15]梁晨,董浩,李中清.量化数据库与历史研究[J].历史研究,2015(2):126-126.

  [16]梁晨.量化数据库:“数字人文”推动历史研究之关键[J].江海学刊,2017(2):162-164.

  [17]王涛. 铁路、美国的现代化与数字史学[J]. 读书,2016(1):83-88.

  [18]孙辉,王颖,张智雄. 基于工具书语料的国史知识库构建和检索[J]. 现代情报,2016,36(1):64-73.

  [19]哲学笔记 1[EB/OL]. [2016-11-20]. http://blog.sina.com.cn/s/blog_9c9fabd30102wrl3.html

  [20]郭辉.大数据时代史学研究的趋势与反思[J]. 史学月刊,2017(5):5-9.

  [21]刘京臣.大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心[J]. 文学遗产,2015(3):182-190.

《数字人文研究框架探析与思考社科职称论文发表》

本文由职称驿站首发,您身边的高端学术顾问

文章名称: 数字人文研究框架探析与思考社科职称论文发表

文章地址: https://m.zhichengyz.com/p-36757

相关内容推荐
土木工程2区sci期刊推荐9本
A类核心学术论文难发吗
教师职称专著对第一作者单位有要求吗
博士出书的最佳时间,理清3个环节,出版会及时
公共卫生、环境卫生与职业卫生SSCI期刊推荐6本
南大核心期刊难发吗?为什么难发,怎么才能更好发
职称评审出版专著有哪些优势?超重要的4点分享给大家
7本振动控制领域的SCI期刊推荐
未能解决您的问题?马上联系学术顾问

未能解决您的问题?

不要急哦,马上联系学术顾问,获取答案!

免费获取
扫码关注公众号

扫码关注公众号

微信扫码加好友

微信扫码加好友

职称驿站 www.zhichengyz.com 版权所有 仿冒必究
冀ICP备16002873号-3