问题出在哪里?面对挑战——寻找数据以满足电子搜索(e-discovery)的合法性要求,IT管理员们可能不得不反复搜索,从而找出所有的数据并将其转换成可被分析的格式。但是将数据聚集到检索库中只是这个挑战的一部分。第二个挑战是从潜在的一大堆信息如非结构化数据中提取并且希望只提取你所需要的信息。通过那个非结构化数据,不仅找出了你所需要的信息,而且还证明你所需要的信息本身就是一个可怕的挑战。
你需要知道什么?当你在一堆文档中仔细搜索时,虽然你只需要找到通过搜索技术识别出来的最相关的文档,但是你还希望找出所有相关的文档。精确度(Precision)是指检索到的相关文档在所有检索到的文档中所占的比例。(你不希望从大量没有价值的数据中分离出有用数据,特别是在存在很多文档的情况下。)然而,你也希望确定所有相关的文档。召回率(Recall)是指检索到的相关文档占所有可用相关文档的比例。(你需要确定你已经获得了所有有用的数据。)不幸地是,精确度和召回率之间趋向平衡,因为精确度有下降的趋势,而召回率在上升。你的目标是尝试同时提高精确度和召回率,即便是你可能永远都无法完全达到这个目标。
现在,存在强大的电子搜索工具,可能有助于为你同时提供高精确度和召回率。这些工具可能包含丰富的布尔能力,这意味着你可以不根据单个关键词进行搜索,而是可以使用AND,OR,NOT和NOR这些连接词来过滤数据。当然,很多强大的搜索算法都是私有的(尽管可能依旧使用布尔逻辑,像Google)。但是所有的布尔技术都是关于关键词之间的连接的。如果你使用太多的关键词,你可能只找到最相关的文档而不是所有相关的文档(这里存在召回率问题)。如果你使用的关键词太少,可能会返回太多非相关的文档(这里存在精确度的问题。)
添加按类别搜索的能力有助于改善结果。Recommind就是一家能提供这种能力的公司。(最近,我对Recommind作为行业分析家的身份有了一个简单的认识。)
类别分析是什么?Recommind以Java为例。搜索Java会得到关于咖啡、软件和太平洋岛的信息。你需要将它们按类别进行分类,然后借此你可以选择相关的类别信息。Recommind软件会自动完成这个操作,因此,随后你可以确定与你的要求相关的文档。(分类可能不像案例Java中所述的那样明显。)这对精确度和召回率应该都会有所帮助。
对此你能做些什么呢?将你的用户放在尽可能最好的位置上,使他们能从非结构数据中获得并且仅获得他们想要的信息,这是你在选择电子搜索工具时面临的挑战。你必须和你的客户如法律部门一起协同工作,选择一组可以使用的测试案件作为电子搜索工具基准。你必须能够凭借每个测试案件来测量每个工具的精确度和召回率。简单的布尔分析可能能够通过测试,但是完整的布尔分析能力至少可能会获得最小所需量。而且,如果单单这样做还不够,你可以查看软件工具所能提供的其它能力,可能你会感觉类别分析能力是必不可少的。
阅读(1000) | 评论(0) | 转发(0) |