AI诊疗更精准，来自顶级新研究！大模搞医疗，成功登陆CPU

日期：2023-12-04 18:57:07 / 人气：711

雷锦·敏敏起源于凹庙。
量子比特|微信官方账号QbitAI
当大模特进入医疗行业与人类医生竞争，能达到什么水平？
就在最近，顶级医学杂志《BMJ》给出了这样一个结论:
在遵循公认的抑郁症临床治疗标准方面，先进的大型模型可能比医生更好！
根据研究结果，大语言模型(LLM)在轻、重度抑郁症的治疗中已经达到了公认的治疗标准。
而且，他们不会受到患者外在因素(包括性别、社会阶层等)的影响。)，比人类初级医生强一点。
这是否意味着LLM类玩家现在可以“持证上岗”了？
不不。
考虑到抑郁症治疗的持久性和患者病情的多样性，本研究认为真正的治疗过程仍然需要人类医生。
然而，该研究也指出，LLM可以帮助现阶段的医疗决策:
可以加强初级卫生保健的决策，提高精神卫生服务的质量和公平性。
毕竟，自从LLM热潮以来，包括谷歌在内的许多AI玩家一直致力于推动其在医疗领域的作用。
甚至“男孩看了无数医生，最后被AI确诊”等新闻也频频曝光。
那么问题来了——LLM在真正的医疗领域迈出了怎样的一步？
LLM一直深度介入医疗。
医疗行业一直被视为AI落地的重要领域。
深度学习浪潮之初，深度学习三巨头之一的Hinton说过一句名言:
AI五年就能取代放射科医生。
虽然这个表述有点激进，但它揭示了一个事实，至少在科研上，AI和医疗的结合是很有前景的。
在过去，AI医疗场景一直在不断发展，例如使用CV算法识别病变和检测心电图。科技巨头都在紧跟潮流，比如微软、谷歌、IBM等。，并持续投入资金推动AI医疗的落地。
尤其是ChatGPT趋势到来后，LLM更强的学习能力、更好的迁移能力、更深的理解能力，为AI医疗打开了新局面。
而这将是一个非常确定的趋势，因为技术、应用、行业发展都已经准备好了。
首先，在技术方面，今年是大模式爆发的一年。目前国内已经形成了“百款大战”的格局。
很多大模型厂商都在聚焦To B路线，正在加速大模型在各个行业的应用。还有一些厂商直接推出医疗行业的大型模型，比如Google推出的Med-PaLM 2，已经在临床上测试过。
所以，对于医疗领域来说，目前并不缺少“模型”。
其次，大模特和医疗领域也自然非常契合。
在问诊、病历生成、病历分析等常见场景中，医生需要基于历史信息进行整合、总结、分析和判断，这是大模型的强项。
比如利用大模型的归纳总结能力，可以快速归纳总结各类数据，帮助医生完成繁琐重复的工作，提高效率。
并且在实践中，基于大基数模型应用专业的医疗数据训练，可以获得强大的医疗模型，可以从根本上加速AI医疗的落地。还可以在一个系统中集成多个子模型，可以快速覆盖更多场景。
纵观行业发展，以国内情况为例，数字医疗和AI医疗已经逐渐发展成为一个独立的轨道。选手们通过使用数据分析、自然语言处理(NLP)和结构化数据等技术，成功地将AI引入临床诊断决策和病例数据管理。
如惠美科技开发的医院核心应用Mayson医生。
简单理解，这是一个可以优化医院会诊、决策、预警和管理的智能应用。核心目标是让医院数字化系统运行更加顺畅，提高医生的诊疗效率。
它主要集成了PDCA过程管理和CDSS(临床决策支持系统)。利用机器学习、深度学习、大数据挖掘等技术，可以对病历、LIS/RIS报告等患者完整的病历数据进行智能识别和分析。为医院构建专门的医学知识库；为医生、医技人员、护士、管理者提供实时智能参考和建议。
在汇美科技最新发布的CDSS 3.0架构中，新一代AI大数据处理平台集成了医疗大模型，并在某合作医院的病历生成中获得了医生的认可。
综上所述，医模应用的落地路径已经比较清晰。但是落地过程并没有想象中那么容易。
医学模式落地怎么解决？
目前，医学模式落地遇到的两个核心问题非常具有原创性:
为了保证病人数据的安全，医院的数据只能在内网使用。
目前GPU计算能力紧张，医院很难承担这么高的采购成本。
这意味着大医疗模型需要私有化，需要找到一种“划算”的方法来提高大医疗模型的计算能力。
因此，AI加速成为了最近业界非常关注的一个领域。直接关系到大规模模型落地的效率和成本，业内各大厂商的加速方案也颇受欢迎。
比如刚刚提到的汇美科技，在基于第四代英特尔至强可扩展处理器的基础架构上，联手英特尔打造了定量和非定量两大模型推理加速方案。
如何实现？
我们先来看量化部分，也就是通过降低模型的精度来实现加速。
以FP32量化到INT8为例，可以让GPU或CPU适应更快更低成本的8位张量来计算卷积和矩阵乘法，可以有效提高计算吞吐量。还可以减少模型数据传输所需的时间和资源，这是数据从内存移动到计算单元的必然消耗，精度从32位降低到8位，可以实现4倍的降低。
同时，量化还可以减少内存的使用，使模型需要更少的存储空间、更小的参数和更高的缓存利用率。
在具体实现方案中，汇美科技引入了英特尔开发并开放的BigDL-LLM大语言模型加速库，提供对各种低精度数据格式的支持和优化，同时配合不同型号、不同代的英特尔处理器的内置指令集(如英特尔AVX-512 _ VNNi、英特尔AMX等)，可以在大模型应用中实现更好的推理加速。
在使用方面，该方案提供了两种方法:便捷的命令和编程接口，可以方便地预览量化后的模型性能是否达到预期；此外，通过BigDL-LLM提供的HuggingFace API/Langchain API，用户可以轻松地将优化后的性能集成到部署推理服务中。
△BigDL-LLM为大型医学模型提供推理加速。
对于非量化技术路径，英特尔还可以提供一个OpenVINO加速方案，采用键值(KV)缓存和运营商融合。
KV cache用于通过键值对存储数据，可以加速和优化数据访问。算子融合是将神经网络中多个连续的算子融合成一个算子，从而减少内存访问，提高计算效率。
在慧美科技主要使用的开源基座模型ChatGLM上，基于Intel OpenVino工具套件的非量化方案，通过使用零拷贝视图，可以转移预先分配的KV所需的内存拷贝空间，避免了数据的多重拷贝，加速了KV缓存。
还可以引入第四代英特尔至强可扩展处理器内置的英特尔AMX指令集，帮助ChatGLM等医学模型在保证精度的前提下，加速BF16/INT8计算，实现算子融合，提高运算效率，加速推理；
同时，open vino Toolkit在HuggingFace上提供了优化接口，使得优化效果可以扩展到更多的医学大模型推理应用中。
综上所述，英特尔与汇美科技联合打造的两大模型加速方案，成功帮助医疗机构以较低的成本部署了高质量的大语言模型，为更多准备“入行”的同行提供了一整套教程。
更重要的是，这次合作也让我们看到了一个事实，大模型训练推理不仅仅是一个GPU解决方案，CPU也可以作为大模型在业界落地的平台。
CPU，大型机型的另一种解决方案
或许很多人提到大模型的时候，刻板印象往往会是“堆GPU”。
但事实上，英特尔正在通过自己的实践证明——CPU也是解决方案。
比如在众所周知的经典OCR(光学字符识别)领域，在英特尔第四代至强可扩展处理器的加持下，响应延迟指标在原有基础上全面提升了25倍！
△数据来源:英特尔合作伙伴
例如，在媒体赌场场景，尤其是借助AMX加速引擎，英特尔可以帮助个性化内容推荐速度提升6.3倍；在零售业，视频分析的速度可以提高2.3倍，工业缺陷检测和医疗服务也是如此。
甚至在生命科学、医学等前沿探索领域，CPU也成为了一个不可忽视的存在:甚至在某些场景下，它的表现比GPU还要好。
这些案例只是大模型时代英特尔CPU性能的一瞥；更重要的是，英特尔在过去和未来都坚持的是“走法”:不仅注重提升硬件产品的性能，还下大力气优化软件和构建生态系统，为用户提供全流程支持。
这也是为什么在今年的英特尔创新2023上，英特尔敢于喊出“AI无处不在”的口号；为什么即将于12月中旬发布的新一代至强可扩展处理器、产品和加速解决方案充满了“AI”和“大模型”的味道？
总之，CPU巨头英特尔真的是在大模式时代另辟蹊径。
新一代至强可扩展处理器和其他产品将为大模型带来的一波性能提升也值得期待。"

作者：傲世皇朝

AI诊疗更精准，来自顶级新研究！大模搞医疗，成功登陆CPU

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →