文章摘要
Qwen3.5-9B本地模型在MacBook Pro M5上表现优异,以93.8%通过率接近云端GPT-5.4,且具备零API成本、全数据隐私优势。测试涵盖15类96项任务,显示部分本地模型响应速度甚至超越云端。该基准旨在评估大语言模型在工具使用、安全分类等方面的能力。
文章总结
标题:HomeSec-Bench本地AI与云端大模型基准测试 | SharpAI Aegis
核心内容:
1. 性能亮点
- Qwen3.5-9B模型在MacBook Pro M5(18核/64GB统一内存)上以25 token/s的速度运行,首字响应时间765ms,仅占用13.8GB内存,测试通过率达93.8%,与云端GPT-5.4(97.9%)仅差4个百分点,且完全本地运行、零API成本、数据隐私全保障。
测试榜单
| 排名 | 模型 | 类型 | 通过率 | 耗时 | |------|---------------------|--------|--------|---------| | 🥇 | GPT-5.4 | 云端 | 97.9% | 2分22秒 | | 🥈 | GPT-5.4-mini | 云端 | 95.8% | 1分17秒 | | 🥉 | Qwen3.5-9B(本地) | 本地 | 93.8% | 5分23秒 |注:GPT-5-mini因API温度参数限制导致多例失败
关键对比
- 本地模型Qwen3.5-35B-MoE首字响应时间435ms,优于云端GPT-5.4-nano的508ms。
测试标准
- 专为家庭安防场景设计的96项LLM测试+35项VLM测试,覆盖工具调用、事件去重等16类任务,所有测试图像均为AI生成。
核心价值
- 笔记本运行的9B参数模型在专业领域表现接近顶级云端模型,且具备完全离线的隐私优势。
系统架构
- Aegis-AI:基于消费级硬件的本地优先AI安防系统
- DeepCamera:去中心化AI技能生态平台
(注:删减了重复的排名数据、无效链接及技术参数列表,保留核心对比和差异化价值说明)
评论总结
以下是评论内容的总结:
1. 性能表现与本地AI优势
- 支持观点:M5 Pro运行Qwen3.5在本地安全系统中表现接近GPT-5.4,且无API成本、数据隐私有保障。
引用:
"Qwen3.5-9B scores 93.8% — within 4 points of GPT-5.4" (评论1)
"Zero API costs, full data privacy, all local" (评论1) - 质疑观点:专用设备(如Jetson Orin)可能更高效且经济。
引用:
"A Jetson Orin would be faster... cheaper for home installation" (评论2)
2. 模型选择与任务适配性
- 批评观点:Qwen并非全能,特定任务需专用模型,且性能被夸大。
引用:
"They’re only comparing recent Qwen models to SOTA... significantly slower" (评论9)
"You get better results by picking specific models for specific tasks" (评论9) - 支持观点:本地AI系统可长期使用,成为家庭基础设施。
引用:
"A 'ai system'... potentially last decades" (评论10)
3. 实际应用与需求争议
- 质疑必要性:LLM用于安防可能过度,传统仪表盘已足够。
引用:
"Things happened or they didn’t... dashboards are for" (评论11) - 支持场景:上下文感知能减少误报(如亲友车牌识别)。
引用:
"Don’t get alerts about your friend’s car plates" (评论6)
4. 商业与合规挑战
- 指出短板:缺乏合规认证可能阻碍商业化。
引用:
"Ability to issue an alarm certificate... required for insurance" (评论16)
5. 技术怀疑与基准问题
- 质疑基准:测试设置不严谨(如温度参数未调整)。
引用:
"Didn’t even take the time to set the temp to 1" (评论19)
6. 硬件与成本讨论
- 成本对比:本地AI门槛与历史价格对比。
引用:
"$2500 is about the amount my parents paid for a 166 MHZ machine" (评论3)
7. 集成与扩展需求
- 用户需求:希望支持Unifi Protect或Home Assistant。
引用:
"Will it work with Unifi Protect?" (评论12)
"Is any integration with Home Assistant planned?" (评论17)
总结
评论呈现两极:一方认可本地AI的性能与隐私优势,另一方质疑其必要性、成本及基准可靠性。争议焦点包括模型选择、硬件适配性、实际应用场景及商业化障碍。