对话式AI产品的思考

技术进步理应为用户带来更加便捷和流畅的使用体验，从而降低使用门槛，让更多人能够享受到技术的红利。当前对话式AI作为一种颠覆性潜力的技术，虽然在许多方面显示出其独特优势，但从用户产品的角度来看，仍面临一些挑战和需要解决的问题。

与消费者市场上的常见产品相比，如搜索引擎和推荐系统，用户的使用门槛已经变得越来越低，甚至到了像短视频推荐流这样的简单交互形式。然而，对话式AI产品的用户体验比搜索引擎还要复杂。熟练地使用GPT等技术，用户需要对提示（prompt）的设计和对话逻辑有一定的理解，这对于绝大多数用户来说，是无法学会和接受的。
对于对话式AI产品的使用场景和用户需求的挖掘还不够充分。目前，大部分产品仍停留在通用的问答和聊天功能上。然而，需要注意的是，大多数用户可能并不需要问答和闲聊功能，或者其提供的价值对用户来讲是不足的。相反，真正对知识和信息有需求的用户，通常在职业领域里寻求帮助以解决具体的问题。这些问题往往复杂且详细，不太可能仅通过简单的问答或聊天来解决。因此，对话式AI产品需要能够集成到用户的工作流程中，提供更复杂的功能和服务。

为了更好地满足这些需求，我们认为对话式AI产品的交互方式应该是音频到音频（Audio2Audio），而非传统的文本到文本。这种方式更加符合用户的使用习惯，可以降低使用门槛，提升用户体验。此外，对话式AI不应仅作为一个独立的产品存在，而应被集成为产品的核心功能，以解决用户实际和有价值的问题。我们正在致力于将不同的大模型转换为Audio2Audio的对话式AI产品，并提供极简的抽象和API，使得更多的应用场景能够轻松集成对话式AI功能，从而真正地让技术服务于用户，改善人们的工作和生活方式。