AI生成假文件，一个更强大的“金丝雀陷阱”

资讯作者：CSDN 2021-06-01 23:25:09 阅读：1029

作者 | DARTMOUTHCOLLEGE 责编 | 欧阳姝黎

第二次世界大战期间，英国情报人员在一具尸体上放置了虚假文件，以愚弄纳粹德国，诱使其对希腊发动袭击。这种代号 “碎肉行动”（Operation Mincemeat）的措施取得了成功，并掩盖了盟军入侵西西里岛的意图。

间谍活动中的 “金丝雀陷阱” 技术通过传播多种版本的假文件来隐藏秘密。金丝雀陷阱可以用来发掘泄露的信息，或者像第二次世界大战期间发生的那样，用制造分散注意力的消息来隐藏真正有价值的信息。

最近，达特茅斯学院计算机系设计了一个新型数据保护系统 --WE-FORGE，便可以使用人工智能技术构建金丝雀陷阱。

在知识产权犯罪活动日益猖獗的今天，这一研究具有十足的现实意义：创新型公司对技术进行了大量的投资，然而，往往一个小成本的网络攻击就可以使攻击者窃取价值数以亿计的新技术。

此前，FORGE（Fake Online Repository Generation Engine）系统已经被用于帮助解决这个问题，它可以自动生成任何真实文件的 N 个 "假" 版本，从而使攻击者必须确定他们从被攻击网络中泄露的 N+1 个文件中哪一个是真实文件。但 FORGE 这个解决方案仍有两个主要缺点：

（1）FORGE 首先需要本体（ontologies）生成假文件；

（2）FORGE 需要通过以下方式生成假文件：识别原始文件中的 "目标" 概念，然后用 "替代" 概念来替代它们。

而本文提出的 WE-FORGE 系统，基于 Word-Embedding 技术，完全消除了对本体的需求，可以自动制造虚假文件，来保护药物设计和军事技术等方面的知识产权。

论文题为 Using Word Embeddings to Deter Intellectual Property Theft through Automated Generation of Fake Documents，发表在 ACM Transactions on Management Information Systems 上。

根据论文，WE-FORGE 的主要几大贡献如下：

1、开发了一个融合词嵌入和聚类的架构，以识别概念的潜在替代。

2、将选择最佳概念替换和最佳替换的问题定为两个 Joint Concept Replacement 问题（JCR）。

3、为了确保生成的假文件集的多样性，在 JCR 问题的目标函数中加入了一个正则化项以确保这一点。

此外，WE-FORGE 算法确保随机地选择替代品，从而减少了攻击者可以轻易地反向工程的机会。

达特茅斯学院网络安全、技术和社会学领域杰出教授，安全、技术和社会学研究所主任 V.S.Subrahmanian 说：“该系统生成的文件与原始文件非常相似，是具有可信度的，但又与原始文件有很大差异，实际上它们是错误的。”

事实上，网络安全专家已经在使用 “金丝雀陷阱” 或 “蜂蜜文件” 以及外语翻译技术来制造诱饵，以欺骗潜在的攻击者。

但 WE-FORGE 进一步改进了这些技术，使用自然语言处理自动生成多个可信和不正确的假文件。该系统还添加了随机性元素，以防攻击者轻易识别出真正的文档。

WE-FORGE 可以用来生成许多技术设计文件的伪造版本。当攻击者入侵一个系统时，他们面临的艰巨任务是找出众多类似文档中真实的那一个。

Subrahmanian 表示：“我们使用这种技术迫使攻击者浪费时间和精力来识别正确的文档。此外，他们对自己找到的结果也是存疑的。”

该系统创建虚假技术文档的前景可期。

根据该团队的研究，一项专利可以包含超过 1000 个概念和多达 20 个可能的替代部分。WE-FORGE 最终可能会用来计算在单个技术文档中可替换节点的数百万种可能性。

Subrahmanian 表示：“不法分子现在正在窃取知识产权并免受惩罚。这一系统增加了窃贼在窃取政府或行业机密时所需的成本。”

WE-FORGE 算法的工作原理是计算文档中概念之间的相似性，并分析每个单词与文档的相关性。然后，系统将概念分类到堆栈中并为每个组计算可能的候选对象。

Guarini’21 的 Dongkai Chen 表示：“WE-FORGE 也可以从原始文件的作者那里获得输入。人类和机器的聪明才智结合在一起，会让知识产权窃取者付出更多代价。”

作为研究的一部分，该团队伪造了一系列计算机科学和化学专利，并邀请专家来判断哪些文件是真实的。结果表明，WE-FORGE 系统能够 “为每个任务持续生成高度可信的虚假文件。”

与其他工具不同，WE-FORGE 不是简单地隐藏信息而是专门伪造技术信息，比如密码。WE-FORGE 改进了系统的早期版本 FORGE，删除了创建面向特定技术操作的耗时需求，还不确保了假消息之间有更丰富的多样性，并遵循一种改进的方法来选择要替换的部分。

当然，未来还有许多重要的研究方向。比如说，FORGE 和 WE-FORGE 只修改文件的文本部分。但是一个文件可以包含不同类型的相互联系的实体，如数字、流程图和表格，仍需要确保文本的变化在这些类型的实体中得到一致的反映。

这将是该研究迈向更广阔的应用空间的下一步。

Reference：

https://scitechdaily.com/cybersecurity-researchers-build-a-better-canary-trap-using-ai-to-generate-fake-documents//

https://www.semanticscholar.org/paper/A-Fake-Online-Repository-Generation-Engine-for-Chakraborty-Jajodia/9e94ffaff39f6919026e6e50753778d4b37d77cb

2001 年创刊，20 年技术见证

《新程序员001：开发者黄金十年》

重磅来袭

在线申请SSL证书行业最低 =>立即申请

[广告]赞助链接：

关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/
让资讯触达的更精准有趣：https://www.0xu.cn/

*文章为作者独立观点，不代表 SSLHUB 立场

本文由 CSDN发表，转载此文章须经作者同意，并请附上出处( SSLHUB )及本页链接。

原文链接 https://www.sslhub.cn/freessl/news/818.html

关注KnowSafe微信公众号
随时掌握互联网精彩