微软新的图像字幕AI将帮助Word Outlook等软件无障碍化

开发了一种新的图像字幕算法,在某些有限的测试中,其准确率超过了人类。该人工智能系统已被用于更新该公司为视障人士提供的助理应用程序 "Seeing AI",并将很快被纳入Word、Outlook和PowerPoint等其他微软产品中。在那里,它将被用于为图像创建alt文本等任务,这一功能对于提高无障碍性尤为重要。

这些应用包括微软自己的Seeing AI,该公司于2017年首次发布。Seeing AI利用计算机视觉为视障人士描述通过智能手机摄像头看到的世界。它可以识别家庭物品,阅读和扫描文本,描述场景,甚至识别朋友。它还可以用来描述其他应用中的图像,包括电子邮件客户端、社交媒体应用和WhatsApp等消息应用。

微软没有披露Seeing AI的用户数量,但Azure AI的企业副总裁Eric Boyd告诉The Verge,该软件是 "为盲人或低视力人士提供的领先应用之一"。Seeing AI已经连续三年被盲人和低视力iOS用户社区AppleVis评选为最佳应用或最佳辅助应用。

微软新的图像字幕算法将显著提高Seeing AI的性能,因为它不仅能识别物体,还能更精确地描述它们之间的关系。因此,该算法可以在看一张图片时,不仅能说出图片中包含哪些物品和物体(如 "一个人、一把椅子、一个手风琴"),还能说出它们之间的互动关系(如 "一个人坐在椅子上,正在拉手风琴")。微软表示,该算法是其之前自2015年开始使用的图像字幕系统的两倍。

该算法在9月份发表的一篇预印论文中进行了描述,在一个被称为 "nocaps "的图像字幕基准测试上取得了有史以来最高的分数。这是一个业界领先的图像字幕评分板,不过它有自己的限制条件。nocaps基准测试由超过166,000个人类生成的字幕组成,描述了从Open Images Dataset中提取的约15,100张图片。这些图片涵盖了一系列场景,从运动到假日抓拍,再到美食摄影等等。

免责申明:
1. 本站所有下载资源均不包含技术支持和安装服务!需要讨论请进群!
2. 分享目的仅供大家学习和交流,请不要用于商业用途!
3. 如果你也有好源码或者教程,可以到审核区发布,分享有KR奖励和额外收入!
4. 如有链接无法下载、失效或广告,请联系管理员处理!
5. 本站无法保证资源或破解时效性,如某些授权码过期等问题,恕不在修复范围内。
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!故不接受任何形式的退款,如确认资源确有问题的,会补给相应KR以供再次购买。
7. 53Kr源码暂未发现后门代码,但无法保证100%安全,推荐检测方法:上传到 https://www.virustotal.com/在线查看是否有恶意代码以及其他有后门嫌疑的代码。
8. 在本站下载的源码我还是不建议正式使用,有特别喜欢的可以去程序官方购买。
53kr资源站仅提供学习的平台,所有资料均来自于网络,版权归原创者所有!本站不提供任何保证,并不承担任何法律责任,如果对您的版权或者利益造成损害,请提供相应的资质证明,我们将于3个工作日内予以删除。
53kr资源分享 » 微软新的图像字幕AI将帮助Word Outlook等软件无障碍化

发表回复