使用 Python 缩写临床对话
在 Abridge,我们的使命是为每一次医疗对话提供背景和理解,以便人们能够掌握自己的健康状况。我们利用突破性的机器学习 (ML) 研究来帮助人们关注健康对话中最重要的细节。Python 为 Abridge 机器学习生命周期的主要方面提供了支持,包括数据标注、研究与实验以及机器学习模型到生产环境的部署。

我们的移动应用程序的截图,展示了我们的临床概念提取模块(加粗的单词)和计划分类器(Abridge Moment)。两者都部分由 Python 提供支持。
机器学习
对话建模、自然语言理解、信息提取和摘要是我们在 Abridge 积极探索的一些研究领域。我们的研究基于最大的真实、去识别化且完全同意的健康对话语料库之一。我们仔细标注了数据,使用与临床医生和研究人员合作制定的指南和模板。Google 表格的 Python API 使我们能够扩展标注模板的创建,将文件适当地分配给标注者,并有效地管理质量控制过程——所有这些都无需构建任何新的网络或移动应用程序。
Jupyter Notebook 是 IPython 项目的一个衍生项目,它允许我们在一个集成环境中清理数据、构建和训练机器学习模型以及评估模型的性能。例如,我们使用 Jupyter 来构建、测试和可视化我们最近发表的一些工作中涉及的模型——包括一个可以自动从医疗对话中提取药物、剂量和频率的药物方案提取管道,以及一个可以提高通用 ASR 系统转录质量的自动语音识别 (ASR) 纠错系统。
我们使用各种各样的 Python 包和库:Scikit-learn、PyTorch、AllenNLP 和 Tensorflow 用于机器学习;NLTK 和 Spacy 用于文本处理;Numpy、Pandas、Matplotlib、Seaborn 用于数据探索。此外,我们使用 Django 构建仪表板来可视化数据并定性评估我们的机器学习模型。我们所有的生产机器学习服务都使用 Python 框架 Falcon 和 Gunicorn 构建。Python 的使用使得机器学习研究到生产服务的过渡变得容易,并使我们能够可靠地为用户提供服务。
Python 是 Abridge 开发过程中的关键部分。除了上述实例,我们还广泛使用 Python 与多个 Google Cloud Platform (GCP) 服务结合,并设置其他监控和调试工具。我们感谢 Python 社区构建了出色的工具,使我们能够在 Abridge 提供神奇的、以患者为中心的体验。
关于作者
Nimshi Venkat 是机器学习研究员,Sandeep Konam 是 Abridge 的联合创始人兼首席技术官。如果您有兴趣加入我们,请访问 https://www.abridge.com/team