北京 · 海淀
王通
围绕多模态生成与编辑开展研究,关注AI生成内容的可控性、质量与落地效率。

擅长领域
以AI研究为核心,强调可控生成、质量与落地效率。
场景文字编辑:世界最好的图片无痕改字模型,学术成果被CVPR25接收
视频编辑:输入视频,输入指令,生成符合指令的视频
多模态语音识别:业内首个端侧唇语+语音识别解决方案,高噪环境准确率提升20%
模型产品化:从预研到上线到售后的全链路质量与效率优化
论文
聚焦高保真场景文本编辑与跨视角稠密对应,强调方法创新与工业落地价值。
提出专为场景文本编辑设计的字形编码器,在生成质量与一致性上取得领先表现。
基于图结构的稠密对应学习方法,提升跨视角匹配的稳健性。
场景文本编辑视频局部编辑生成式模型工程化可控生成多模态研究高保真视觉
场景文本编辑视频局部编辑生成式模型工程化可控生成多模态研究高保真视觉
发明专利
以可控生成、语音合成与图像文本处理为核心的专利布局。
合成语音评估方法、装置、设备及存储介质(CN114493232B,一作)
年份:2022.05.13
一种新视角图像生成方法、装置、设备及可读存储介质(CN117456031A,一作)
年份:2024.01.26
一种语音数据获取方法、装置、电子设备和存储介质(CN114822494A,一作)
年份:2022.07.29
处理图像中文本的方法、装置、可读存储介质和程序品(CN120339462A,二作)
年份:2025.07.18
语音克隆模型生成方法、装置及电子设备(CN115831088A,二作)
年份:2023.03.21
语音合成方法以及装置、存储介质、电子装置(CN115240631A,三作)
年份:2022.10.25
教育与荣誉
海外名校背景与卓越绩效记录。
教育
南加州大学 USC
计算机科学 理学硕士
2019.05 – 2020.12
加州大学圣地亚哥分校 UCSD
数学-计算机科学 理学学士
2014.09 – 2018.12
荣誉
- 美图影像研究院 2024 年度绩效考核 A
- 普强 2021 年度绩效评估 S 级
联系
如需合作或交流,请直接邮件联系。
邮箱:tovi.myo@gmail.com