微软最新发布的Phi-3.5系列AI模型,标志着小语言模型领域迎来又一波重大进展。该家族由三款模型构成:Phi-3.5-mini-instruct、Phi-3.5-Mixture of Experts-instruct以及Phi-3.5-vision-instruct,各个模型均提供特定功能,旨在提高AI技术在不同任务下的性能表现。此版本彰显出微软致力于推动AI技术发展,同时维持良好效率与可及性的探索与尝试。
Phi-3.5模型家族概述
Phi-3.5-mini-instruct模型包含38亿参数,针对快速推理任务进行了优化。该模型在代码生成以及逻辑/数学问题的解决等领域表现相当出色。尽管与其他模型比较其规模相对较小,但却在各种性能基准测试当中拥有可与Meta Llama 3.1以及Mistral 7B等大模型相媲美的性能。微软致力于使其成为一套既强大、又高效的模型,这也代表着软件巨头致力于打造一款能够在资源受限环境下部署的高质量AI工具。
家族中的第二位成员Phi-3.5-Moe-instruct是三套模型中体量最大的一位,拥有420亿参数。不过得益于其混合专家架构,在任何给定操作期间,只有66亿参数处于活动状态。这样的设计使该模型能够高效处理跨多种语言的复杂AI任务。MoE方法使得模型能够仅激活与给定任务关联度最高的“专家”子模型,从而提高性能与资源利用率。该模型在需要多语言能力的任务当中特别有效,甚至优于谷歌Gemini 1.5 Flash等由竞争对手打造的更大模型。
第三套模型Phi-3.5-vision-instruct则将该家族的功能扩展到了多模态领域。此模型拥有42亿参数,能够处理文本和图像,适合光学字符识别、图表分析乃至视频摘要等任务。该模型在处理复杂视觉任务时表现出的能力,与业界体量更大的多模态模型几乎不相上下。
更多Phi-3.5高级功能
Phi-3.5家族最令人印象深刻的功能之一,就是所有模型都可支持高达12.8万token的长上下文窗口。此功能允许模型处理和生成大量数据,因此适合用于处理长文档、复杂对话乃至涉及多媒体内容的实际应用。在这么长的输入序列中保持一致性以及对上下文的感知能力,已经成为众多现代AI应用程序的一项关键需求。
训练这些模型当然离不开庞大的算力资源。例如,Phi-3.5-mini-instruct模型就以10天为周期使用到512张H100 GPU在3.4万亿个token上进行了训练。Phi-3.5-MoE模型的训练范围更广,在23天之内在4.9万亿个token上进行了训练,且同样使用512张H100 GPU。最后,Phi-3.5-vision-instruct模型在6天之内在5000亿token上进行了训练,且使用到256张A100 GPU。这种立足高质量、推理密集型公开数据集进行了密集训练,也让Phi-3.5模型家族拥有了令人印象深刻的功能表现。
开源与可及性
为了履行公司的开源承诺,微软已经根据开源MIT许可证对外发布Phi-3.5模型家族。开发人员可以通过Hugging Face平台访问这些模型,将其下载、修改并集成到自己的项目当中,且不受商业使用的限制。这种开源方法有望激发出更广泛的采用和实验,特别是在那些需要高级AI功能的加持、但却不具备从头开始训练模型的必要资源的应用领域。
竞争格局与影响
微软为Phi-3.5家族定下的战略就是开发出更小、更高效的AI模型,尽可能使其在特定任务中带来超越更大模型的表现。这种对效率的关注带来了几大关键优势,包括减少算力要求、加快推理时间以及因能耗降低而实现的环境友好能力。这些优势的存在,使得Phi-3.5模型家族特别适合部署在资源相对有限的边缘计算场景以及大规模云环境当中。
此次发布中最值得注意的方面之一,则在于微软宣称这些模型在特定任务当中可以用过谷歌、Meta甚至是OpenAI等竞争对手发布的更大体量模型。如果这些说法在后续实际应用当中得到验证,那么很可能预示着AI格局将发生转变,即模型效率将变得与原始规模及参数数量同等重要。这种方法挑战了以往AI开发领域“越大越好”的固有观点,有望引领AI开发进入一个专注于可持续性和可及性的新时代。
Phi-3.5家族代表着微软在AI研发方面迈出的重要一步。通过专注于打造体量更小、效率更高、能够处理各种任务的模型,微软希望就当前市场对于功能强大且资源高效的AI解决方案的旺盛需求交出一份令人满意的答卷。
好文章,需要你的鼓励
北京大学研究团队开发出基于RRAM芯片的高精度模拟矩阵计算系统,通过将低精度模拟运算与迭代优化结合,突破了模拟计算的精度瓶颈。该系统在大规模MIMO通信测试中仅需2-3次迭代就达到数字处理器性能,吞吐量和能效分别提升10倍和3-5倍,为后摩尔时代计算架构提供了新方向。
普拉大学研究团队开发的BPMN助手系统利用大语言模型技术,通过创新的JSON中间表示方法,实现了自然语言到标准BPMN流程图的自动转换。该系统不仅在生成速度上比传统XML方法快一倍,在流程编辑成功率上也有显著提升,为降低业务流程建模的技术门槛提供了有效解决方案。
谷歌宣布已将约3万个生产软件包移植到Arm架构,计划全面转换以便在自研Axion芯片和x86处理器上运行工作负载。YouTube、Gmail和BigQuery等服务已在x86和Axion Arm CPU上运行。谷歌开发了名为CogniPort的AI工具协助迁移,成功率约30%。公司声称Axion服务器相比x86实例具有65%的性价比优势和60%的能效提升。
北京大学联合团队发布开源统一视频模型UniVid,首次实现AI同时理解和生成视频。该模型采用创新的温度模态对齐技术和金字塔反思机制,在权威测试中超越现有最佳系统,视频生成质量提升2.2%,问答准确率分别提升1.0%和3.3%。这项突破为视频AI应用开辟新前景。