Chinaunix首页 | 论坛 | 博客
  • 博客访问: 258887
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

分类: IT业界

2022-05-25 15:10:14

在做数据相关项目时,往往需要将爬虫采集到的数据一步到位存储到系统所在的数据库中,这样就可以直接调用采集到的数据。
或者当采集大批量的数据时,为了方便我们保存和查找数据或者根据某条件查找特定数据时,就需要将采集的数据直接存储到数据库中。
今天就来为大家介绍一下,如何将ForeSpider爬虫软件采集的数据,直接存储到ForeLib/Mysql/SQL Sever/Oracle/ODBC等数据库中。

l ForeLib数据库
ForeSpider爬虫软件内置ForeLib数据库,用户下载安装ForeSpider数据采集系统后,系统默认关联ForeLib数据库,如下图所示:

图片


用户无需自己安装关联其他数据库,即可采集数据存储入库。


图片


ForeLib数据库支持百亿级数据规模,是一种免费非关系型数据库,一种高效率、高安全性的,适应高吞吐量的分析性数据库。既可以快速搭建Web服务系统,也为企业内部构建IT信息系统提供了较完整的解决方案。

 

优势:

①作为非关系数据库:

支持NoSQL和SQL两种模式。同时具备强大的数据库操作支持特性,有着更加灵活的数据操作方式,除了支持传统的SQL语句外,支持直接操作字段和数据偏移。作为通用的数据库系统,它具有极简又完整的数据管理模式。

②作为分布式数据库:

它具备分布式处理的优良性能。占用内存少,并发能力强,基于大数据的高性能和针对性设计。

③性能优秀

运行逻辑基于计算机底层编译,完全使用C++开发,性能优良,系统资源开销和CPU使用效率都很优秀,优于MySQL等主流数据库。采取多级缓存机制,用最小资源换取最高性能,达到资源与性能双优的程度。


1.全文检索

用户还可对采集到的数据进行字段、全文检索,对检索出的数据进行删除、导出等操作,从而灵活筛选采集到的数据。对全文检索到的数据,进行关键词高亮显示。

 

图片


设置介绍:

按字段检索:关键词检索某一字段,导出、删除检索出的数据。

全文检索:关键词检索全部数据,导出、删除检索出的数据。

 

检索方法:

在数据浏览中,可按条件检索具体数据记录。检索方法如下:

(1)按字段检索

检索语句由以下内容构成:

①字段名称

②运算符:

包括等于(=)、不等于(!=)、大于(>)、大于等于(>=)、小于(<)、小于等于(<=)、and、or、in(查询某个字段是否包含某个字符串)。

③数字或字符串:

字符串需要用英文单引号或双引号括起来。

例如:

id>100 and id<500

title=”北京”

(2)全文检索

可以支持直接输入检索词,进行数据库的全文检索。注意需要整体检索的字段,字段属性必须选择“索引字段”。


2.灵活导出

ForeLib数据库还可分组批量导出采集到的数据。

①可以导出Excel、csv、txt等文本格式,还可以导出图片、视频等各种文件数据。

②可以导出全部记录,或某个字段,或某段记录。

③可以按照某种规律,将记录自动分割成多个文件导出。

④可以在导出的同时按照某个规律创建文件夹,将不同类型的数据存入不同命名的文件夹中。


分割存储:可按照记录数目、字段值进行分组批量导出。

下图所设置表示每50条数据导出为一个数据表文件。

 

图片


下图所设置表示每个p_time值导出一个文档,即发布时间为同一天的文章内容导出为一个文档。

 

图片


 

适用场景:

①采集的数据量太大

XlS文件最多存储65535行数据,当采集到的数据量高于该行数时,可设置记录数目,分组导出数据。

②按文件夹分类导出数据

按照某一分类字段,批量导出对应分类中的数据。如导出某地区所有的数据、导出某行业所有的数据、导出某网站所有的数据等。


3.支持分布式存储

ForeLib数据库,支持海量存储,支持数据在多个服务器上分布式存储,支持增加服务器以便增加存储容量,支持大规模数据读写,且数据读写性能不会随着数据量增长而降低。

用户可以通过采集系统将任务启动云采集,同时可进行节点资源分配、任务定时启动、任务数据实时查看等操作。

节点分配支持对于紧急任务可以优先分配节点资源;支持定时启动,可以按设置时间定点启动任务;支持任务数据实时查看,实时导出。

 

概念介绍:

分布式存储:分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。

 

适用场景

①分布采集统一存储

各服务器分开采集数据,将数据统一存储到总服务器中。

②分布采集分布存储

各服务器分开采集数据,分开存储到各自服务器中。

③分布采集分布存储交叉调用

各服务器分开采集数据,分开存储到各自服务器中,各服务器可调用指定服务器中的数据。

④其他分布式场景

可根据需求,定制各种分布式数据采集存储场景。


所以当用户批量采集大规模数据或者需要进行数据检索的时候,不需要安装任何数据库,直接使用ForeSpider就可以实现。

而且这样采集到的数据也是存储在本地,绝对保证用户数据采集及存储的私有性和安全性。安全性远高于市场上的云采集器及浏览器采集等爬虫软件。


l Mysql数据库

首先下载并部署好Mysql数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。

连接本地数据库:数据路径写本地的IP地址或localhost,后加端口号。

连接远程数据库:数据路径填写远程服务器的IP地址。


图片


图片


注意:用Mysql客户端工具配置数据库时,编码须选择UTF-8或者GBK。


 l SQL Server数据库

首先下载并部署好SQL Server数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。


图片


 l ODBC数据库

可以通过微软的ODBC数据源,链接Access、Excel和SQL Server。

先在本地控制面板的管理工具中找到ODBC数据源。以ODBC(Excel)为例:


图片 


图片 

在ForeSpider数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。


图片


 l Oracle数据库

首先下载并部署好Oracle数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。


图片


适用场景:

①实时同步数据到某系统、网站

将ForeSpider爬虫软件关联到目标系统、网站的数据库中,建表保持一致,即可将数据实时同步到该系统、网站中。

②数据实时采集到本地数据库

将ForeSpider爬虫软件关联到本地数据库中,建表保持一致,即可将数据实时同步到该数据库中。


*以上网站仅为展示ForeSpider数据采集分析引擎采集范围及能力,请您在使用中,严格按照国家法律和对方网站的要求进行合法的数据爬取,不要将数据用于违法用途。


l 前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

阅读(564) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~