那么文本嵌入向量中存储的究竟是什么?除了必须体现语义相似性(semantic similarity)这一要求外,对于给定文本输入应分配何种嵌入向量并无任何约束在线课堂。嵌入向量中的数值具有不确定性,其具体取值取决于模型的初始化状态。我们或许能解读不同嵌入向量之间的关联性,但永远无法理解单个嵌入向量的具体数值含义。
一个神经嵌入模型(浅蓝色)接收文本输入并生成用于搜索的嵌入向量
现在设想你是一名软件工程师,正为公司搭建 RAG 系统在线课堂。你决定将向量存储在向量数据库中。此时你发现,该数据库实际存储的是嵌入向量,而非原始文本数据。数据库中充斥着大量看似随机的数字,它们虽然代表着文本数据,但系统实际上从未真正 "接触" 过任何原始文本。
你清楚这些文本对应的是受公司隐私政策保护的客户文档在线课堂。但严格来说你从未将任何文本传输至外部;传输的始终是嵌入向量,这对你而言仅是一组随机数字。
如果有人黑进数据库并获取所有文本嵌入向量 ------ 这是否会造成严重后果?如果服务提供商想将您的数据售卖给广告商 ------ 他们能否做到?这两种场景的核心在于:攻击者能否获取嵌入向量并通过某种方式反推出原始文本在线课堂。