
RAG 知識庫餵甚麼:親人的 WhatsApp/微信記錄、語音訊息文字稿(Whisper 提取)、你對他/她性格口頭禪的描述、以及你定期手動更新的「家族近況」文字——這層令它不只是重播舊事。
mem0 記憶層做甚麼:每次對話結束後自動提取重要事實存入向量庫。例如你說「表哥結婚了」,下次它能自然提起,不用你再說一次。
最大現實瓶頸:整條 pipeline STT → LLM → TTS → LatentSync → FaceSwap 加起來約 2–4 秒延遲,像通話有輕微衛星延遲,不是完全即時,但可接受。
最務實建議:先用 RunPod 租 GPU 把整條 pipeline 跑通,驗證效果再決定買不買顯示卡。換臉和 Lip Sync 各跑一次就知道你的素材質量夠不夠用。