为Gemini AI大模型找场景，谷歌Project Ellman项目曝光

谷歌团队提出一个设想，用AI技术处理用户照片及搜索引擎查询信息，全面分析出用户的生活是怎样的，这个项目名叫“Project Ellmann”。

按照最初的设想，Project Ellmann会用LLM（比如Gemini）提取信息，从用户的照片中找到特定模式，然后制作一个聊天机器人，让它精准回答问题。谷歌宣称Ellmann将会成为“个人生活故事讲述者”。

听起来很有趣，不过谷歌到底是想将Ellmann功能植入谷歌Photos，还是放进其它产品？目前还不得而知。谷歌Photos拥有10多亿用户，存储了4万亿张照片或者视频。

目前谷歌正在利用AI技术优化产品线，Ellmann只是利用方式之一。几天前谷歌推出Gemini，在某些场合Gemini甚至已经超越OpenAI GPT-4。

谷歌有意将Gemini授权给谷歌云（Google Cloud）用户使用，用户可以借助Gemini开发自己想要的功能。Gemini最突出的优势在于“多模态”，也就是说它可以理解文本、图片、视频、音频等多种类型的信息。

在最近的一次内部会议上，谷歌Photos部门一位高管展示了Project Ellman。内部文档显示，谷歌团队认为可以借助大语言模型以“鸟瞰”方式展示用户在现实世界的生活故事。

通过传记、之前的记录、照片等资料，Ellman能够深入理解情境。例如，通过分析一系列片段，Ellman可以知道各种信息的主题是不是大学生活。

在演示幻灯片中，有一张写道：“如果不能以鸟瞰方式查看个人生活，我们就无法回答难题，也无法讲好故事。”

另一张则说：“我们会翻看你的照片，看看它的标签和地点是什么，然后判断出它们是否属于某一个有意义的时刻。当我们全面理解你的生活，个人故事就会变得更清晰。”

谷歌团队还谈到了Ellmann Chat。什么是Ellmann Chat？团队描述说：“你不妨设想一下，当你打开它，它已经知道与个人生活有关的一切，你会向它提什么问题呢？”

例如，用户问Ellmann Chat一个问题：“我有没有养狗。”AI回答说主人有一只狗，还说出了狗的名字，还说家里有两个人最喜欢和狗在一起，家人的名字叫什么。

另一个问题则是主人想搬家，让AI提供一些与现有居住环境相似的小镇供选择。这些问题Ellmann都能回答。不只如此，Ellmann还知道用户的饮食习惯是怎样的。

比如，用户想买什么东西，有什么兴趣，有什么工作和旅行计划，Ellmann都可以分析照片，找到答案。用户喜欢访问什么网站，用什么App，Ellmann更是一清二楚。

谷歌新闻发言人透露：“谷歌Photos一直想用AI技术帮助用户搜索照片和视频，有了LLM，我们可以提供更实用的体验。Ellmann目前仍处在内部早期探索阶段，最终是否真的推出还需要时间确定。谷歌要确保Ellmann对用户真的有用，还要考虑用户的隐私和安全。”

有很多科技企业都想利用新技术为用户创建更加个性化的个人记忆，Project Ellmann只是其中之一。

不管是谷歌Photos还是苹果相册，它们都在分析照片，从中找到规律，然后制作相册。谷歌Photos可以自动将相似照片集合在一起变成相册，方便用户查找。苹果6月份曾说，软件升级之后可以识别相片中的人、狗或者猫，用户只需要说出人的名字，软件就可以帮你查找他的照片。

听起来很美好，但谷歌和苹果的技术仍不完美，有时也会犯错。2015年时苹果谷歌AI曾将黑人识别为黑猩猩，闹出笑话，即使到了今天，错误仍然难以避免。

2023年12月14日 jonson Categories:

关于我们