就像一只融入黑夜的黑猫:文本诈骗的搜索引擎指南

文件和电子邮件通常呈现清晰易读的文本。 但他解释说,一些技巧可以把应该可读的单词变成很像一只融入黑夜的黑猫。 dtSearch Corp. 销售总监 Elizabeth Thead

他们将大多数文件和电子邮件(Phrase、Excel、Entry、PowerPoint、OneNote、PDF、Outlook/Alternate 等)呈现为在其本机应用程序中查看时易于阅读的文本。 但是一些技巧可以使文本不像页面上明显的单词,而更像是一只消失在黑暗中的黑猫。 本文详细介绍了其中的许多文本技巧,并展示了 dtSearch® 之类的企业搜索引擎(与 Google 之类的 Web 搜索引擎不同)如何阐明这些技巧。

在我们强调我们的黑色文本技巧之前,有必要了解在正常情况下所有内容如何组合在一起。 假设您正在查看数千甚至数百万个文件和电子邮件,以查看它们是否包含以下一个或多个术语:服装、糖果或大锅。 如果您有无限的时间,您可以在其原始应用程序中单独恢复每个文件并扫描文本。 我们称之为眼球法。 您还可以发布企业搜索引擎以一次搜索超过 TB 的数据。

企业搜索引擎在数据第一次被索引后立即搜索 TB。 索引本身只是一个内部工具,它包含数据中每个唯一的单词、数字和位置。 索引对最终用户来说并不困难; 只需告诉搜索引擎要覆盖哪些文件夹,其余的由搜索引擎索引器完成。

看更多: 为什么不应该清空搜索结果让我们远离 Big Rock Candy

在构建索引时,搜索引擎会以二进制格式处理每个文件,而无需检查原始应用程序中的每个文件。 直接查看二进制格式的文件,在二进制代码的海洋中可能很难形成任何单词。 要处理里面的文本,搜索引擎必须首先定义适用的解析规范。 分析规范可能长达数百页,并且在不同的文件格式之间差异很大。 因此,将正确的规范与正确的文件类型相匹配是至关重要的。

除了更快的速度之外,索引搜索在它允许的搜索类型方面可以超越眼球方法。 事实上,索引搜索支持超过 25 种不同的搜索功能,包括复杂的短语、逻辑表达式和关闭:(糖果玉米或黑猫)和(带有巫师服装的大锅 12)不是圣诞节。 对于多语言文本,索引搜索支持数百种全球语言中的任何一种 统一码 支持。 除了单词搜索,搜索引擎还可以搜索特定的数字和数字范围,以及日期或日期,以及跨越不同日期格式的范围,例如 22 年 10 月 31 日与 2022 年 10 月 31 日。引擎还可以标记数据中的任何余额卡号。

最后,与眼球方法不同的是,索引搜索支持跨网络或 Web 的同时多用户查询。 从“本地”Net 服务器或云(如 Azure 或 AWS)运行,在线搜索可以以无状态方式执行,对并发搜索线程的数量没有内置限制。 即使在更新索引以反映自上次创建索引以来已添加、删除或修改的文件时,同步搜索也可以继续,因此没有“停止”。

现在我们有了黑猫技巧。

技巧#1:黑底黑字,白底白字

谈论一只在晚上融化的黑猫。 在本机应用程序中查看文件时,这种类型的文本很难识别。 然而,由于搜索引擎以二进制格式解析文件,因此黑色与黑色文本等与任何其他搜索引擎文本处于同一级别。

技巧 #2:深埋的元数据

该应用程序的文件本机视图可以隐藏某些元数据,因此即使知道它在那里也可能需要大量点击。 但是所有元数据都完全出现在搜索引擎在索引中看到的文件的二进制格式视图中,因此是完全可搜索的。

技巧#3:多级嵌套文件结构

有时文件不会显示为独立项目。 您可以拥有一个嵌入了 Excel 电子表格的 Phrase 文档,并且相同的二进制文件可以是更大的嵌套结构的一部分,例如带有 ZIP 或 RAR 附件的电子邮件。 查看嵌套在外部文件的原始应用程序中的文件时,有时默认情况下可以看到嵌入文件的一部分。 但是当搜索引擎以二进制格式浏览文件时,它会看到所有内容。 此外,搜索引擎可以让您从 ZIP 或 RAR 存档中复制单个文件,或从较大的电子邮件存档中复制单个电子邮件。

技巧 #4:扩展名不匹配的文件

使用 Excel 扩展名保存 Entry 数据库非常容易。 带有 PDF 扩展名的 XLSX 或 Phrase 文件。 但是,搜索引擎可以直接使用二进制格式来确定正确的文件类型,完全绕过文件扩展名。

看更多: 您的组织现在需要的 6 种数据清理策略

技巧 5:PDF 仅用于图像

有时,PDF 文件可能包含看起来像纯文本的内容。 但是,当您尝试复制和粘贴它时,您将不会收到任何文本。 (此示例与其他示例相反,其中文本可能在 Adob​​e Reader 等 PDF 查看器中清晰可见,但无法通过其他方式访问。)但搜索引擎只能在创建索引时标记图像 PDF,让您知道您需要通过 Adob​​e Acrobat 等 OCR 程序运行它们,将它们转换为“图像可搜索”的 PDF。

技巧#6:错别字

浸入糖果袋会导致手指发粘,从而导致比平时更多的错别字。 从 1 到 10 的模糊可调搜索可以找到一个单词,即使它拼写错误。 因此,如果在电子邮件中将“万圣节”拼写为“Hallomeen”,搜索引擎仍然可以在具有较低歧义的万圣节搜索中找到它。

当心那只黑猫,万圣节快乐!

你能分享任何其他搜索引擎文本技巧吗? 告诉我们 Facebook 推特 领英.

图片来源:Shutterstock

更多关于技术通用


#就像一只融入黑夜的黑猫文本诈骗的搜索引擎指南

Leave a Comment

Your email address will not be published. Required fields are marked *