用户登录  |  傲看软件园 用户注册
文章中心广告代码ASP源码PHP源码JSP源码.NET源码源码相关傲看留言板繁體中文
当前位置:傲看软件园文章中心软件产业专题评论

从语义网络向结构化数据回归

减小字体 增大字体 作者:Fuller  来源:本站原创  发布时间:2009-09-11 23:04:03

RWW最新文章Top 5 Web Trends of 2009: Structured Data将结构化数据(structured data)放在最前面讨论,虽然没有排序的意味,但是至少说明当人们思考新技术潮流时结构化数据首先出现在头脑中。

我在一系列文章中讨论了结构化数据(structured data)和结构化数据互联(linked data)及其与语义网络(semantic web)的关系,例如:

通过追本溯源,不难发现语义网络(semantic web)这个词出现时并没有与本体工程(ontology engineering)划等号,但是经过进10多年的发展,大家慢慢达成共识:语义网络的技术基础似乎应该分成多个阶段向前发展,这些阶段分别是: XML, RDF, OWL等,通过阅读一些最新的文档资料,明显感觉到语义网络的远景:基于本体的语义推理系统。但是,近来,这个远景开始模糊。

从去年,在国内外一些媒体上(例如,关于semantic web什么时候能广泛实现的问题), 似乎大家又回想起来语义网络的本源:linked data,结构化数据互联。也许是本体工程路线遇到了诸多问题,最大的问题是怎样大规模建立本体模型。向linked data回归至少能够看到很多实际效果,例如,网络内容进行结构化后(变成了data sets),能够被计算机程序自动处理,因为信息结构中富含丰富的可以被计算机程序利用的语义信息(元数据,元信息),让人联想到“互联网就是一个大数据 库”。然而,将诸多data sets关联成linked data并不是一件易事,例如,什么是语义搜索引擎一文提出的思考问题,所以不妨再进一步回归,先夯实基础,即,互联网内容的结构化改造,先将互联网上的文字内容转化成结构化的可以被计算机程序自动处理的数据。

网页抓取/数据抽取/信息提取软件工具MetaSeeker在 经历了多个互联网浪潮实战检验后,设计思路发生了极大转变,该转变大约发生在垂直搜索热潮期间,新思路是:设计和开发一套通用的易用的网站内容采集工具, 减少网友重复编程,降低数据集成的成本。降低成本的最有效方法就是用计算机程序尽量代替人工,因此,网络内容结构化改造是关键。MetaSeeker中的 MetaStudio就是一个信息语义结构定义工具,在此基础上,MetaSeeker更进一步:将语义结构定义活动变成共享的协作的网络社区活动。于是,发展到V3版本,采用了FreeFormat技术方法。另外,与国外同行为结构化而结构化的思路不同,没有为维基百科等知识库内容建立结构化信息模型,而是采用一种务实的方法:依托于网友的网站内容抽取活动建设互联网语义结构知识库。

Tags:专题评论

作者:Fuller

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论

精品栏目导航

关于本站 | 网站帮助 | 广告合作 | 下载声明 | 友情连接 | 网站地图
冀ICP备08004437号 | 客服Q:354766721 | 交流群83228313
傲看软件园 - 绿色软件,破解软件下载站! 源码网 源码之家 绿软之家
Copyright © 2003-2010 OkHan.Net. All Rights Reserved .
页面执行时间:28,156.25000 毫秒
Powered by:OkHan CMS Version 4.0.0 SP2