使用 Python 缩减临床对话
在 Abridge,我们的使命是将背景和理解带到每一次医疗对话中,以便人们可以随时掌握自己的健康状况。我们利用突破性的机器学习 (ML) 研究来帮助人们关注他们健康对话中最重要的细节。Python 为 Abridge 的 ML 生命周期中的主要方面提供支持,包括数据标注、研究和实验以及 ML 模型部署到生产环境。

我们的移动应用程序的屏幕截图,展示了我们的临床概念提取模块(以粗体字显示)和一个计划分类器(作为 Abridge 时刻)。两者都部分由 Python 提供支持。
机器学习
对话建模、自然语言理解、信息提取和摘要是我们 Abridge 正在追求的一些活跃研究领域。我们的研究由一个最大的真实、去识别化且完全同意的健康对话语料库提供支持。我们使用与临床医生和研究人员合作制定的指南和模板,认真地标注了数据。Google Sheets 的 Python API 使我们能够扩展注释模板的创建,将文件适当地分配给注释者,并有效地管理质量控制流程 —— 所有这些都不需要构建任何新的 Web 或移动应用程序。
Jupyter Notebook 是 IPython 项目的一个衍生项目,它使我们能够在集成环境中清理数据、构建和训练机器学习模型以及评估模型的性能。例如,我们使用 Jupyter 来构建、测试和可视化我们最近发表的一些工作中出现的模型 —— 包括一个 药物治疗方案提取管道,该管道可以自动从医疗对话中提取药物、剂量和频率,以及一个自动语音识别 (ASR) 校正系统,该系统可以提高通用 ASR 系统的转录质量。
我们使用各种各样的 Python 包和库:Scikit-learn、PyTorch、AllenNLP 和 Tensorflow 用于机器学习;NLTK 和 Spacy 用于文本处理;以及 Numpy、Pandas、Matplotlib、Seaborn 用于数据探索。此外,我们使用 Django 构建仪表板来可视化数据并定性评估我们的 ML 模型。我们所有的生产 ML 服务都是使用 Python 框架 Falcon 和 Gunicorn 构建的。使用 Python 可以轻松地从 ML 研究过渡到生产服务,并使我们能够可靠地为用户提供服务。
Python 是 Abridge 开发过程的关键部分。除了上述实例之外,我们还广泛地将 Python 与多个 Google Cloud Platform (GCP) 服务结合使用,并设置其他监控和调试工具。我们感谢 Python 社区构建了出色的工具,使我们能够在 Abridge 提供神奇的、以患者为中心的体验。
关于作者
Nimshi Venkat 是一名机器学习研究员,而 Sandeep Konam 是 Abridge 的联合创始人/CTO。如果您有兴趣加入我们,请查看 https://www.abridge.com/team