三九宝宝网宝宝百科宝宝知识

网页结构化抽取现在都有哪些常用方法

05月30日 编辑 39baobao.com

[Excel中都有哪些常用的函数]一、HYPERLINK函数 所谓HYPERLINK,也就是创建快捷方式,以打开文档或网络驱动器,甚至INTERNET地址。通俗地讲,就是在某个单元格中输入此函数之后,可以到您想去的任何位置。在某个E...+阅读

垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。

整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。

举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。

垂直搜索引擎大体上需要以下技术

1.Spider

2.网页结构化信息抽取技术或元数据采集技术

3.分词、索引

4.其他信息处理技术

垂直搜索引擎的技术评估应从以下几点来判断

1.全面性

2.更新性

3.准确性

4.功能性

垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有技术优势的,绝对不要想像着招几个人就可以搞定垂直搜索的全部技术,作为一个需要持续改进可运营的产品而不是一个项目来说对技术的把握控制程度又是垂直搜索成功的重要因素之一。

如何使用odi对没有主键的表进行数据抽取

在具体的实现方式上,Oracle Simple、Oracle Consistent是采用同步方式进行增量数据抽取的,说白了就是在源系统相关表上添加触发器,如下图所示:

当源数据库中的交易需要修改相关表时,会调用触发器,将变化数据插入到增量表中,触发器的调用是包含在交易中的,这就决定了变化数据的实时性高,在需要实时变化的场景,非常适用,而且这种方式在数据库非归档状态下也照常运行,其缺点是由于触发器包含在对数据修改的事务中,当系统并发量比较大时,会对原有系统的效率产生一定影响。很多同事一听说触发器就觉得对源系统影响非常大,其实并不是这样。这里需要澄清的一点概念是触发器往变化数据表中写的并不是所有变化的数据,而可能只是一个主键或者再加一点额外的信息,其对系统的影响比我们想象的要小得多。

Oracle 9i/10g/11g Consistent (LOGMINER)方式可以配置成异步方式,基于Oracle数据库的online redo log进行变化数据的捕捉(这里要特别提醒的是目前ODI只支持Hotlog方式),说的更白一点就是oracle stream技术,变化的数据通过logminer技术从在线日志中获取。如下图所示:

这种方式基于异步的策略,一般变化数据的获取会有1秒到几分钟的数据延迟,当然对数据仓库系统来讲,这点时间也不算啥。但是由于其从日志中抽取变化数据,对原有的生产系统影响很小,而且该方式在用户原来的schema上除了一个读权限外,不需要额外的权限要求,因此大多数用户都愿意采用这种方式。但该方式需要对用户有一定的权限要求,而且数据库必须运行在归档模式下。

数据抽取的数据源采用关系数据库

实际应用中,数据源较多采用的是关系数据库。从数据库中抽取数据一般有以下几种方式。 增量抽取指抽取自上次抽取以来数据库中要抽取的表中新增、修改、删除的数据。在ETL使用过程中。增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据准确地捕获到;性能,尽量减少对业务系统造成太大的压力,影响现有业务。目前增量数据抽取中常用的捕获变化数据的方法有:a.触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据。触发器方式的优点是数据抽取的性能较高,缺点是要求在业务数据库中建立触发器,对业务系统有一定的性能影响。

b.时间戳:它是一种基于递增数据比较的增量数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。同触发器方式一样,时间戳方式的性能也比较好,数据抽取相对清楚简单,但对业务系统也有很大的倾入性(加入额外的时间戳字段),特别是对不支持时间戳的自动更新的数据库,还要求业务系统进行额外的更新时间戳操作。另外,无法捕获对时间戳以前数据的delete和update操作,在数据准确性上受到了一定的限制。

c.全表比对:典型的全表比对的方式是采用MD5校验码。ETL工具事先为要抽取的表建立一个结构类似的MD5临时表,该临时表记录源表主键以及根据所有字段的数据计算出来的MD5校验码。每次进行数据抽取时,对源表和MD5临时表进行MD5校验码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新MD5校验码。MD5方式的优点是对源系统的倾入性较小(仅需要建立一个MD5临时表),但缺点也是显而易见的,与触发器和时间戳方式中的主动通知不同,MD5方式是被动的进行全表数据的比对,性能较差。当表中没有主键或唯一列且含有重复记录时,MD5方式的准确性较差。d.日志对比:通过分析数据库自身的日志来判断变化的数据。Oracle的改变数据捕获(CDC,Changed Data Capture)技术是这方面的代表。

CDC 特性是在Oracle9i数据库中引入的。CDC能够帮助你识别从上次抽取之后发生变化的数据。利用CDC,在对源表进行insert、update或 delete等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可控的方式提供给目标系统。CDC体系结构基于发布者/订阅者模型。发布者捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数据。通常,CDC系统拥有一个发布者和多个订阅者。发布者首先需要识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其保存在特别创建的变化表中。它还使订阅者能够控制对变化数据的访问。订阅者需要清楚自己感兴趣的是哪些变化数据。一个订阅者可能不会对发布者发布的所有数据都感兴趣。

订阅者需要创建一个订阅者视图来访问经发布者授权可以访问的变化数据。CDC分为同步模式和异步模式,同步模式实时的捕获变化数据并存储到变化表中,发布者与订阅都位于同一数据库中。异步模式则是基于Oracle的流复制技术。

以下为关联文档:

托福听力场景常用词汇都有哪些discussion 讨论 presentation 陈述 topic 题目,话题 lecture n.演讲,vt.讲课 project 规划,项目 ton of 大量 cover 覆盖 re-write 改写 research data 研究资料 input 输入 t...

英语句子结构有哪些口语常用的现代汉语里一般的句子成分有六种,即主语、谓语、宾语、定语、状语和补 语。英语的基本成分有七种:主语、谓语、表语、宾语、定语、状语和补语 一个完整的英语句子,至少由两部分...

数据结构都有哪些结构常用数据结构 数组 (Array) 在程序设计中,为了处理方便, 把具有相同类型的若干变量按有序的形式组织起来。这些按序排列的同类数据元素的集合称为数组。在C语言中, 数组属于构造...

现在都有哪些流行词网上流行词汇不完全记录 〔汗〕①感叹词,形容词。被震惊后,尴尬、无奈、无言以对的感觉。②甘拜下风,自叹不如。可做动词使用。 〔变体〕:为强化不寒而栗的震惊和恐惧感,常被异化...

景观常用植物都有哪些种类景观常用植物都有哪些种类 城市道路绿化植物的选择,主要考虑艺术效果和功能效果。1.乔木的选择。 乔木在街道绿化中,主要作为行道树,作用主要是夏季为行人遮荫、美化街景,因此选...

样本的抽取方法有哪些在抽样检验中,使用的随机抽样主要有: 1、简单随机抽样 也称纯随机抽样,是直接从总体的N个单位产品中完全随机地抽取n个单位产品,并使总体中每一个单位产品都有同等被抽中的机会,...

轮椅都有哪些基本结构?都有什么作用1. 坐垫为皮垫,有承受体重、保持身体平衡的作用。为防止压疮和增加透气性,常备海绵坐垫或充气垫。2. 背垫为皮垫,具有支撑身体与保持平衡的作用。如辅以海绵垫、枕头等物,更能增...

常用的数据库文件存储结构有哪些常用的数据库文件存储结构有哪些,C语言数据文件有几种存储方式?每种存储形式各有什么特点:数据库结构和空间管理一个oracle数据库是数据的集合,被处理成一个单位。一个oracle数...

常用数据结构有哪些常用数据结构有哪些,数据库常见的数据模型有哪三种:局域网中常用的拓朴结构有(星型)、环型、(总线型)和树形 下面分别说明局域网中常用的四种拓朴结构。 1.星型拓朴结构 星型拓朴...

推荐阅读
图文推荐