林一二2026年04月10日 22:52
初步想法是部署多个摄像头,覆盖所有死角。用传统视觉模型(YOLO 等)或视觉语言模型来标注每一个可以储物的位置,扫描上面的物品加入列表管理。
我在印象笔记里整理过,物品找不到的最主要原因就是遮挡。
需要处理多个摄像头的融合,做好本体链接,以免多个看到同一物体的摄像头重复统计。
需要思考具体的方案,可以训练或微调自己的模型。
问了王爽,他说不要用 SLAM 和 YOLO,这都是过时的方案了。现在就算是他们车企也都在用大模型了,他让我直接去折腾大模型,或者再看看 VLLM 做推理。
Undefined widget 'supertag-form'