谷歌团队提出一个设想,用AI技术处理用户照片及搜索引擎查询信息,全面分析出用户的生活是怎样的,这个项目名叫“Project Ellmann”。
按照最初的设想,Project Ellmann会用LLM(比如Gemini)提取信息,从用户的照片中找到特定模式,然后制作一个聊天机器人,让它精准回答问题。谷歌宣称Ellmann将会成为“个人生活故事讲述者”。
听起来很有趣,不过谷歌到底是想将Ellmann功能植入谷歌Photos,还是放进其它产品?目前还不得而知。谷歌Photos拥有10多亿用户,存储了4万亿张照片或者视频。
目前谷歌正在利用AI技术优化产品线,Ellmann只是利用方式之一。几天前谷歌推出Gemini,在某些场合Gemini甚至已经超越OpenAI GPT-4。
谷歌有意将Gemini授权给谷歌云(Google Cloud)用户使用,用户可以借助Gemini开发自己想要的功能。Gemini最突出的优势在于“多模态”,也就是说它可以理解文本、图片、视频、音频等多种类型的信息。
在最近的一次内部会议上,谷歌Photos部门一位高管展示了Project Ellman。内部文档显示,谷歌团队认为可以借助大语言模型以“鸟瞰”方式展示用户在现实世界的生活故事。
通过传记、之前的记录、照片等资料,Ellman能够深入理解情境。例如,通过分析一系列片段,Ellman可以知道各种信息的主题是不是大学生活。
在演示幻灯片中,有一张写道:“如果不能以鸟瞰方式查看个人生活,我们就无法回答难题,也无法讲好故事。”
另一张则说:“我们会翻看你的照片,看看它的标签和地点是什么,然后判断出它们是否属于某一个有意义的时刻。当我们全面理解你的生活,个人故事就会变得更清晰。”
谷歌团队还谈到了Ellmann Chat。什么是Ellmann Chat?团队描述说:“你不妨设想一下,当你打开它,它已经知道与个人生活有关的一切,你会向它提什么问题呢?”
例如,用户问Ellmann Chat一个问题:“我有没有养狗。”AI回答说主人有一只狗,还说出了狗的名字,还说家里有两个人最喜欢和狗在一起,家人的名字叫什么。
另一个问题则是主人想搬家,让AI提供一些与现有居住环境相似的小镇供选择。这些问题Ellmann都能回答。不只如此,Ellmann还知道用户的饮食习惯是怎样的。
比如,用户想买什么东西,有什么兴趣,有什么工作和旅行计划,Ellmann都可以分析照片,找到答案。用户喜欢访问什么网站,用什么App,Ellmann更是一清二楚。
谷歌新闻发言人透露:“谷歌Photos一直想用AI技术帮助用户搜索照片和视频,有了LLM,我们可以提供更实用的体验。Ellmann目前仍处在内部早期探索阶段,最终是否真的推出还需要时间确定。谷歌要确保Ellmann对用户真的有用,还要考虑用户的隐私和安全。”
有很多科技企业都想利用新技术为用户创建更加个性化的个人记忆,Project Ellmann只是其中之一。
不管是谷歌Photos还是苹果相册,它们都在分析照片,从中找到规律,然后制作相册。谷歌Photos可以自动将相似照片集合在一起变成相册,方便用户查找。苹果6月份曾说,软件升级之后可以识别相片中的人、狗或者猫,用户只需要说出人的名字,软件就可以帮你查找他的照片。
听起来很美好,但谷歌和苹果的技术仍不完美,有时也会犯错。2015年时苹果谷歌AI曾将黑人识别为黑猩猩,闹出笑话,即使到了今天,错误仍然难以避免。