Chinaunix首页 | 论坛 | 博客
  • 博客访问: 6649
  • 博文数量: 6
  • 博客积分: 210
  • 博客等级: 二等列兵
  • 技术积分: 70
  • 用 户 组: 普通用户
  • 注册时间: 2009-09-21 10:04
文章分类
文章存档

2011年(1)

2009年(5)

我的朋友
最近访客

分类: 数据库开发技术

2009-09-28 13:46:50

一、达梦数据库搜索引擎2009

企业信息化建设浪潮,催生了大量的内部信息资源。据统计,企业数据每年以200%的速度增长,其中80%的数据以文件、邮件、图片等非结构化数据形式存放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。整合企业信息资源,构建企业搜索引擎,为组织内外部用户提供检索和个性化信息服务,已经成为企业信息化的一大热点。

达梦数据库搜索引擎可以解决以下几个问题:

1、信息量大时速度慢的问题

比较常用的数据库有:OracleMySQLMS SQL等,这些都是支持标准sql92语法的数据库,数据库的重点功能在存储,对于数据量达到千万级的时候,再执行sql语法的速度将会变得很慢,特殊是执行含有likeselect语句时,比如一个采用mysql存储的客户信息表数据记录达到500万行以上时,就算增加再多的索引,采用标准select语句执行查询时,所需时间至少也在2分钟以上,Oracle数据库虽然可以采用分区,或采用Oracle的内置函数如instr来辅助查询,时间也在1分钟以上。

达梦数据库搜索引擎采用全文检索技术,来解决搜索速度的问题,这就是为什么百度和谷歌能从上亿的网页数据库中搜索,只需零点零几秒以内返回结果。

达梦数据库搜索引擎为什么在检索时能达到零点零几秒返回结果呢?从数据库读取记录,对要搜索的字段分好词,存成文件索引,搜索时再分词,直接去索引查找每个词有哪些索引后文档。

2、信息形式多

如果要建一个行业的信息库,如新闻库,可能就会分很多类别,如:互联网、应用软件、通信等,每类可能由一个部门来组织,并且有可能会涉及到各个部门,不但包括文字、图片、图表和视频等多种形式的信息资源,而且涵盖了其他语言的信息资源。达梦数据库搜索引擎能够提供一个统一的跨媒体检索。

3、信息结构不一样

如果以前有很多信息系统,并且数据库不同,也是用不同语言开发的,查询A信息要去A系统,查询B类信息又要去B系统查询,一是不方便查询,二是重复的数据多,没法充分的利用这些已有的数据资源。

达梦数据库搜索引擎能够针对不同的数据源,采用灵活的定制,将这些数据统一成一个检索库,方便查询,达到数据的充分利用。

该版本需要用户有独立的服务器主机。

 

二、垂直搜索引擎站长版

专门针对个人站长推出的搜索引擎,现在推出的搜索内容包括:网页、求职、旅游、车票等搜索,会陆续推出其他内容的搜索。

无须独立的服务器,索引数据全部存储在达梦公司的搜索服务器,提供给站长相应的接口,从达梦公司搜索服务器返回xml方式的数据给web程序。Web程序可以是phpjava,显示的样式由站长自己定义。要抓取的数据源由达梦公司统一配置,站长发现有新的数据源,汇报给达梦公司客服。达梦公司会每隔2小时从互联网上抓取。

该版本无需独立的服务器主机。为个人站长定制一个小酷讯。

垂直搜索引擎站长版只卖服务,按年收取服务费,提供phpjava的调用接口,不出售产品。

 

 

三、达梦通用搜索引擎2009

达梦公司致力于打造100个行业内的百度,已成功推出了佛教行业的通用搜索引擎。包含有:新闻、网页、图片、音乐、购物、经典、国学、词典、视频、博文、博客等搜索引擎,搜索整个互联网。

该版本是一个完整的通用搜索引擎解决方案,支持分布式部署、可以根据IP段抓取、增量索引。

 

四、达梦网页数据采集器V1.0

达梦数据采集器是一个功能强大的数据采集软件.使用它,您可以很容易的从网页上抓取文字,图片,文件等资源.程序支持远程下载图片文件,并生成缩略图,支持网站登陆后信息采集,支持探测文件真实地址,支持代理设置,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等。同时,软件具有极高的稳定性,可以多线程,多任务的工作,您可以用它进行大批量数据的更新。程序还支持多页和分页的采集,支持数据跨页采集,再难的数据格式也可以找到解决方案。采集器可以运行在windowslinux平台。

软件应用范围:

1.网站采编人员:打破传统的采编人员必须手工转载文章的现状,使他们更有时间去做数据的编辑加工,工作更有成效.程序可以完美结合TRS等采编系统,大型网站的信息采集将更加容易有效。常用于新闻采集、论坛采集、技术文章采集。

 2.内部网络:打破内网信息单一,获取困难的神话,内部网络也可以体验丰富多彩的互联网信息.可以解决形如军队等与因特网隔离的重要部门对于因特网的信息需求问题。

3.政府机关:实时跟踪、采集与政府工作相关的国内外及地方新闻,政策法规,经济,产业等信息,解决政府主网站对各地级子网站的信息采集与整合问题.

4.企业应用:实时而准确地采集国内外新闻,行业新闻,技术文章.可以很容易的进行数据整合,情报处理更快捷高效,大大减少业务成本。将不同系统不同结构的数据统一成相同的格式。

5.SEO人员或站长:数据的获得更加容易,可迅速增加网站信息量,可以将更多精力放在优化和推广上。

达梦采集器特有的功能:

1.支持所有编码格式的数据采集,自动识别编码,您可以用它采集全世界的文章.程序还可以进行编辑间的完美转换。

2.多接口:支持所有主流或非主流的CMS,BBS,下载站,ftp,您可以通过系统的接口实现采集器和网站的完美结合.

3.无人值守工作:您配置好程序以后,程序就可以按照您的设置自动运行,完全不需要人工干预。

4.本地编辑采集数据:您可以在本地可视化编辑已采集的数据.

5.采集内容测试功能:这是其它任何采集软件所不能比的,可直接查看结果并测试发布。

6.管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。灵活的管理后台设定。

 

 

五、达梦网络信息雷达V1.0

达梦网络信息雷达系统针对全球中文博客、论坛、Wiki、新闻资讯等进行深度数据挖掘分析,在第一时间把握网络舆情,及时发现负面言论信息,提高危机处理效率,全面掌控企业品牌网络的口碑环境。

如果三鹿奶粉在互联网上第一次出现“三聚氰胺”的负面报道时,就能信息雷达信息发现,也就不会出现后面的不可收拾的局面。

应用范围:

1、希望了解整个互联网对产品、公司品牌的评价。

2、了解互联网对竞争对手的评价。

3、了解竞争对手发布了什么产品、竞争对手有什么新动向。

功能描述:

1、网站后台定制感兴趣的关键词,如公司名称、产品、竞争对手的名称、产品等。

2、对抓取的数据进行初步分析,根据文章的描述,先将文章初步分为疑似负面信息、中性信息、正面信息。也可以人工确定某条抓取信息的性质。

3、可以显示统计图表。

4、分析信息可以自动存入数据库。

 

 

每篇文章后面都加上联系方式:

联系电话:020-22174900,传真:020-28315847 联系QQ942413782 联系网址:

 

阅读(754) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~