简介过去绘制全球供应链的第一英里通常需要数年人工数字化或者在有训练数据的情况下花费数月进行昂贵的定制模型训练。我们尝试了一条不同的路径仅用 50 个标签、一台笔记本电脑和 AlphaEarth FoundationsAEF卫星嵌入数据集在一个下午就检测到了苏门答腊近 70% 的已知棕榈油厂。测试场地印度尼西亚本次案例研究选择印尼作为测试地它占全球棕榈油产量约 60%。这里是商品驱动型毁林的热点区域——自 1990 年以来原始森林面积减少了 45%而同期棕榈油产量增长了近 20 倍。印尼苏门答腊岛上约 40% 的产量来自小农户因此全岛分布着密集的加工厂网络——在约 48 万平方公里的土地上散布着近 900 家棕榈油厂。在我们作为世界自然基金会 Codex Planetarius 贡献成员发布的最新报告中我们绘制了该工厂网络与印尼各地商品生产区之间的概率关系即“供应集水区”从而对商品生产的环境影响进行了精细而系统的评估图 1。仅 5% 的设施就关联了 2020 年后 73% 的毁林和 77.9% 的土地利用变化排放这种不成比例的影响集中在少数企业行为者身上。我们的结果揭示了印尼采购区域的宏观趋势这些数据有助于制定更合理的政策也使从该地区采购的企业买家能够进行有针对性的尽职调查。图 1Epoch 平台内供应集水区的示例。显示苏门答腊廖内省的一家棕榈油厂灰色区域为绘制的集水区绿色为符合 EUDR 的地块红色为不符合的地块蓝点为设施本身。幸运的特例与通用的挑战对于印尼的棕榈油我们很幸运拥有顶级数据库如通用工厂清单和扩展版 Trase 通用工厂清单图 2它们经过多年人工数字化、行政记录调查和实地验证才建成。然而对于世界上大多数其他商品我们并没有这样大型的、经过同行评审的设施位置数据集。在将方法推广到可可、橡胶、咖啡等尚未绘制地图的热带商品之前我们希望在存在真实数据的地方进行基准测试。如果从零开始只用 AEF 嵌入和一台笔记本电脑我们能在多大程度上接近 Trase UML 的覆盖范围图 2印度尼西亚苏门答腊Trase 数据集中 867 个棕榈油厂的位置寻找“提示词”POME lagoon要从其他工业区中区分出棕榈油厂必须寻找这种商品特有的基础设施。棕榈油厂废水POME处理塘通常是一系列矩形、棕绿色的池塘从冷却池到厌氧池再到好氧池这使得它们非常独特图 3。更复杂的是苏门答腊还有庞大的对虾水产养殖业从卫星角度看养殖塘与 POME 塘极为相似。图 3图 1 中设施的近距离视图可以清晰看到庄园内并排的池塘。图像来源Google EarthMaxar。如何利用卫星嵌入进行搜索那么我们如何使用卫星嵌入数据集来搜索这些独特的 POME 塘呢AEF 嵌入将观测到的地表和环境属性编码为向量——即嵌入空间中的方向。如果 POME 塘具有一致的“特征”或模型眼中的“模样”我们就应该能找到指向它们的向量。就像大语言模型能编码“猫”的概念一样AEF 嵌入也能编码赤道气候下矩形棕绿色池塘的“概念”。继续这个类比我们可以通过训练一个线性模型在嵌入空间中搜索一个线性的“概念”即单一的线性向量值从而对 AEF 进行“提示”。以下是我们如何通过这一过程来寻找新的和已有的 POME 塘及相关处理设施。为搜索播下种子图 4迭代检测工作流概览我们希望在非常大范围内搜索 POME 塘并且由于检测到的点会经过人工验证才会加入数据库因此不需要像素级精度。我们可以通过使用较低分辨率的嵌入来降低处理需求。我们的迭代工作流图 4首先使用 XEEEarth Engine 的 Xarray 扩展和高容量 API 端点提取 80 米降尺度下的 AEF 嵌入并将输出文件保存为单个 zarr 文件。AEF 嵌入经过单位归一化且线性可分因此降尺度实际相当于取 8x8 像素网格内 10 米分辨率嵌入的平均值数据集大小因此缩小 64 倍。Earth Engine 已经以金字塔形式存储栅格数据这使得这一操作非常快速。对于搜索年份 2024 年和苏门答腊的陆地面积我们得到了约 7500 万个向量嵌入约 30 GB。使用开源工具 geovibes它为地理空间嵌入提供交互式标注、搜索和分类工作流我们将数组转换为 duckDB 表并用 FAISS一种专为密集向量簇高效相似性搜索而设计的索引进行索引。为了创建一组训练样本我们先标注了几个已知的设施位置。在某些数据稀疏区域我们仅从三个已知设施开始然后用 geovibes 寻找更多相似向量的例子来扩大样本数量。在本案例中我们随机标注了 50 个设施池塘使用 geovibes 的笔记本界面只需几分钟。接着我们使用内置的分层采样器从 Earth Engine 中基于社区托管的 ESRI 土地覆盖图抽取 3500 个随机“负样本”。跨土地覆盖类别采样可确保负样本集不仅包含占主导的森林和农田还包含水体、建成区以及其他可能与设施基础设施混淆的类别。负样本与正样本的距离至少 500 米以避免在已知正区域附近采样负样本。此操作很快不到一分钟。线性基线拿到样本后我们需要一个分类器。AEF 嵌入由大型神经网络生成因此复杂的视觉特征提取已经完成而且这些表示是线性可分的所以一个简单的线性模型就能利用它们无需自己训练深度网络。我们 fork 了 geovibes 工具集并添加了线性模型支持这让我们能在几秒内得到基线结果。额外好处是线性模型输出一个单一的方向向量和截距我们可以直接将其复制到 Earth Engine 中并以 10 米原生分辨率做点积运算。这可以作为视觉上的合理性检查确认搜索方向是否指向正确的特征。组合 116 个正样本 3500 个负样本训练时间1.05 秒F10.936对 75,312,294 个嵌入进行评分找到 105,311 个高于阈值 0.5 的检测结果数据加载 1 秒训练 1 秒推理 160 秒输出生成 12 秒总计 174 秒在一台消费级笔记本电脑上对 7500 万个向量的训练、推理和输出仅用了 174 秒作为对比处理相同任务的深度学习模型至少需要一个数量级以上的训练数据、算力和工程投入。有了嵌入我们可以在几分钟内运行国家级推理任务这使得每次迭代的成本足够低廉可以将其视为草稿而非最终答案。迭代改进第一遍结果确实很粗糙虽然我们有超过 10 万个正检测但其中大多数是误报。这在意料之中因为分层负样本将搜索空间缩小到了水体、设施和农田但我们还没有将 POME 塘与其相似物河流、水产养殖和棕榈种植园区分开来。解决方案是添加更多能区分这些边缘案例与真正 POME 塘的示例。使用 geovibes我们加载检测结果筛选出明显错误的点标注了大约 100 个假阳性作为负样本。然后重新运行流程组合 124 个正样本 3606 个负样本训练时间1.01 秒F10.846对 75,312,294 个嵌入进行评分找到 10,215 个高于阈值 0.5 的检测结果现在我们取得了进展经过两次迭代和 10 分钟的标注我们从 7500 万个向量减少到只有 1 万个候选点其中许多聚集在一起。作为合理性检查我们看看有多少池塘在目标棕榈加工设施 500 米范围内总检测数 8836真阳性500 米内3362假阳性 5474召回率0.712检测到 617/867 个工厂略低于一半的检测结果非常接近设施本次运行捕获了约 70% 的设施但假阳性率仍然很高。我们在 Earth Engine 中探索线性向量发现池塘上有高相似度斑点有趣的是树木和道路之间的开阔边界区域也有亮点而且与水产养殖的相关性相当强图 5、图 6。因为我们取 8x8 像素块的平均值来获得搜索所用嵌入所以可能会在池塘和道路的边缘发现强相关性。图 5图 1 中同一设施上方向向量与 10 米 AEF 嵌入的点积可视化池塘区域尤为突出。图 6南部和北部的养殖区明亮显示而东北和西南的农田相对较暗。插图显示高相似点仅限于养殖池而非河流。后处理我们将 POME 塘搜索视为目标检测问题因此可以添加一个简单的空间聚类方法作为初始后处理步骤以减少需要审查的对象总数。使用 DBSCAN 聚类方法我们能够将总对象数从 8836 个斑块减少到 2600 个斑块簇图 7。通过快速测试脚本我们发现整体检测略有损失因为我们实际上没有去除噪声只是将其移到质心同时减少了需要实际检查的兴趣点/区域数量。图 7使用 DBSCAN 将邻近的检测斑块80 米聚类为单个质心点减少了待审查位置的数量同时保留了孤立的检测。为了验证聚类检测结果与已知设施的一致性我们针对 Trase 通用工厂清单运行了简单的邻近验证。每个检测结果周边 500 米缓冲区内计数落在已知工厂附近的检测——这是一种粗略启发式而非确定性验证。POME 塘可能距离设施超过我们的 500 米缓冲区反之靠近设施的水产养殖池也可能抬高真阳性计数。这两种情况都说明了为什么人工审查仍然必不可少。总检测数 2604真阳性500 米内595假阳性 2009召回率0.679检测到 589/867 个工厂即便如此我们仍感到相当惊讶仅用两次 LinearSVM 训练和简单的后处理就检测到了苏门答腊近 70% 的棕榈油厂。如果算上手动画标注和每个点的人工检查这总共只花了一个下午的时间如果你打算将这些检测纳入完全自动化的流程正如我们针对其他商品所做的包括最新的可可报告还需要更进一步。可能的选项包括针对特定商品使用森林数据合作伙伴层进行形态学检查利用 Dynamic World 等土地覆盖图针对水体、建成区和裸地的存在进行分区统计同时确保检测结果不在河流或大型居民点内。最后加入建成结构数据集来验证大型建筑物的存在是确保某种设施已被检测到的可靠方法。经验总结仅从 50 个标注的 POME 塘和一个下午的工作开始我们成功检测并验证了苏门答腊约 70% 的有记录棕榈油厂。这个案例展示了如今借助 AlphaEarth Foundations 卫星嵌入可以实现的能力一名分析师、一台笔记本电脑就能为国家级搜索播下种子仅需两次训练迭代将数百万候选地点缩减到数千个待审查点。关键洞察在于嵌入技术已经转移了瓶颈——困难的不再是获取算力或收集庞大训练数据集而是决定要搜索什么、如何后处理以及如何验证结果。通过预先计算好的 AlphaEarth Foundations 嵌入我们可以选择从像素到图块的不同细节层级并快速迭代从而让那些过去对于小型、资源有限的团队不切实际的新问题变得可行。对于那些没有通用工厂清单的商品来说这无疑是一次升级。我们现在仅用少量标签就能启动国家级搜索在之前毫无基线的地区构建数据集。然而验证和确认工作从未像现在这样重要。当我们在数据生产上投入的资源减少时就必须优先将更多资源投入到地面采样和验证中并谨记我们有责任忠实地分享结果并真实地评估新能力的局限性。了解更多Geovibes 是一个开源软件包其博客是了解更多信息的绝佳资源。AlphaEarth Foundations Concept Menagerie 是由 Samuel Barrett 维护的嵌入概念列表。XEE 是 Google Earth Engine 的 Xarray 扩展。AlphaEarth Foundations 卫星嵌入数据集可在 Earth Engine 和 Google Cloud Storage 中获取研究论文可在线查阅。原作者Jake Wilkins