“复旦·眸思”助力视障者“看见”世界—新闻

作者：江庆龄来源：复旦大学发布时间：2024/3/3 10:12:32

选择字号：小中大

“复旦·眸思”助力视障者“看见”世界

日前，基于多模态大模型“复旦·眸思”（MouSi），复旦大学自然语言处理实验室（FudanNLP）为视障者量身打造的“听见世界”APP上线，将成为视障人士的生活助手与智能管家。

“眸思”与复旦自然语言处理实验室开发的MOSS同音，但和基于文本的MOSS不同，它能够理解并识别图片内容，致力于成为视障者的一双“眸”。

团队从基于GPT3.5的文本模型转向围绕GPT4-v复现多模态大模型，对模型中的核心关键点开展研究，致力于提升单项任务的准确率和大模型的强化学习。在基于几亿张图片训练出的“眸思”大模型基础上，针对视障者提出的各类需求，团队使用上万张图片进行特殊样本训练，使“眸思”具备能够适配更多场景的能力。

据了解，基于“眸思”的“听见世界”APP针对视障者日常生活需求，设计了3种模式：街道行走模式，“眸思”可以细致扫描道路情况并提示潜在风险，陪伴视障者安全通行；自由问答模式，不论是博物馆、艺术馆，还是公园，“眸思”能够捕捉四周景象的每个细节，用声音构建丰富的生活场景。

预计今年3月，“听见世界”APP将完成第一轮测试，在我国一、二线城市和地区同步开启试点，根据算力部署情况进行推广。更多模式也正在开发中，比如阅读模式，服务盲人朋友点菜、读书等场景，解说模式，承担无障碍电影解说员的工作。

图片均来源于计算机科学技术学院

今年上半年，团队将结合AR升级APP内的定位精度细化至亚米级别；下半年，团队希望将“眸思”升级到基于视频的判断。复旦大学自然语言实验室教授张奇表示：“人工智能发展日新月异，科技应该要改变更多人的生活，希望‘眸思’能够帮助视障人士走出家门，让他们可以尝试更多工作，为人生书写更多可能。”

编辑部推荐博文
基金申请季，这里有2份攻略请查收！科学网2026年1月十佳博文榜单公布！打碗花、打破碗花花、牵牛花、喇叭花，还分不清？寒假港澳之旅：理想和现实盘点2025年在Nature发文Top 10的中国机构温敏性结晶和刻蚀碳布电极构筑高性能液态铜基热电池更多>>