从语义网络向结构化数据回归

减小字体

增大字体作者：Fuller 来源：本站原创发布时间：2009-09-11 23:04:03

RWW最新文章Top 5 Web Trends of 2009: Structured Data将结构化数据(structured data)放在最前面讨论，虽然没有排序的意味，但是至少说明当人们思考新技术潮流时结构化数据首先出现在头脑中。

我在一系列文章中讨论了结构化数据(structured data)和结构化数据互联(linked data)及其与语义网络(semantic web)的关系，例如：

什么是语义搜索引擎讨论利用结构化数据的互联关系进行信息检索
再次思考什么是语义网络是在大家逐渐将目光转向结构化数据时对网络内容结构化实践的思考和展望
为什么开发MetaSeeker工具包是结合MetaSeeker的开发和应用经验讨论互联网内容结构化的意义
什么是Web3.0汇集了更早期的一些资料

通过追本溯源，不难发现语义网络（semantic web）这个词出现时并没有与本体工程（ontology engineering）划等号，但是经过进10多年的发展，大家慢慢达成共识：语义网络的技术基础似乎应该分成多个阶段向前发展，这些阶段分别是： XML, RDF, OWL等，通过阅读一些最新的文档资料，明显感觉到语义网络的远景：基于本体的语义推理系统。但是，近来，这个远景开始模糊。

从去年，在国内外一些媒体上（例如，关于semantic web什么时候能广泛实现的问题），似乎大家又回想起来语义网络的本源：linked data，结构化数据互联。也许是本体工程路线遇到了诸多问题，最大的问题是怎样大规模建立本体模型。向linked data回归至少能够看到很多实际效果，例如，网络内容进行结构化后（变成了data sets），能够被计算机程序自动处理，因为信息结构中富含丰富的可以被计算机程序利用的语义信息(元数据，元信息)，让人联想到“互联网就是一个大数据库”。然而，将诸多data sets关联成linked data并不是一件易事，例如，什么是语义搜索引擎一文提出的思考问题，所以不妨再进一步回归，先夯实基础，即，互联网内容的结构化改造，先将互联网上的文字内容转化成结构化的可以被计算机程序自动处理的数据。

网页抓取/数据抽取/信息提取软件工具MetaSeeker在经历了多个互联网浪潮实战检验后，设计思路发生了极大转变，该转变大约发生在垂直搜索热潮期间，新思路是：设计和开发一套通用的易用的网站内容采集工具，减少网友重复编程，降低数据集成的成本。降低成本的最有效方法就是用计算机程序尽量代替人工，因此，网络内容结构化改造是关键。MetaSeeker中的 MetaStudio就是一个信息语义结构定义工具，在此基础上，MetaSeeker更进一步：将语义结构定义活动变成共享的协作的网络社区活动。于是，发展到V3版本，采用了FreeFormat技术方法。另外，与国外同行为结构化而结构化的思路不同，没有为维基百科等知识库内容建立结构化信息模型，而是采用一种务实的方法：依托于网友的网站内容抽取活动建设互联网语义结构知识库。