深圳网站营销seo费用辽宁省建设厅网站更新

张小明 2026/3/13 5:33:40
深圳网站营销seo费用,辽宁省建设厅网站更新,2022年大连黄页,wap网站要花多少钱c-TF-IDF 和 TF-IDF 什么是 c-TF-IDF#xff1f;传统 TF-IDFc-TF-IDF#xff08;基于类的 TF-IDF#xff09; c-TF-IDF 的计算公式直观理解在 BERTopic 中的工作流程代码示例#xff1a;使用 c-TF-IDF与传统 TF-IDF 对比c-TF-IDF 的优势自定义 c-TF-IDF 参数可视化 c-TF-ID…c-TF-IDF 和 TF-IDF什么是 c-TF-IDF传统 TF-IDFc-TF-IDF基于类的 TF-IDFc-TF-IDF 的计算公式直观理解在 BERTopic 中的工作流程代码示例使用 c-TF-IDF与传统 TF-IDF 对比c-TF-IDF 的优势自定义 c-TF-IDF 参数可视化 c-TF-IDF 权重总结BERTopic 中一个非常核心的概念——c-TF-IDFclass-based TF-IDF。这是 BERTopic 区别于其他主题模型的关键创新点。什么是 c-TF-IDF传统 TF-IDFTF词频一个词在单个文档中出现的频率IDF逆文档频率衡量一个词在所有文档中的普遍性应用对象单个文档c-TF-IDF基于类的 TF-IDF将每个主题视为一个文档类计算时一个主题类vs所有其他主题类应用对象整个主题/类别c-TF-IDF 的计算公式c-TF-IDF(w, c) tf(w, c) × log(1 N / df(w))tf(w, c)词 w 在主题 c 的所有文档中出现的总次数N主题总数df(w)包含词 w 的主题数量直观理解假设我们有 3 个主题科技、体育、政治词科技主题体育主题政治主题是否适合做主题词“算法”高频几乎无偶尔出现✅ 优秀区分度高“比赛”低频高频低频✅ 优秀“政策”低频低频高频✅ 优秀“非常”中频中频高频❌ 差普遍性高“重要”高频高频高频❌ 差无区分度在 BERTopic 中的工作流程frombertopicimportBERTopicfrombertopic.vectorizersimportClassTfidfTransformer# 1. 文档聚类使用嵌入和聚类算法# docs → 文档嵌入 → 聚类 → 得到主题标签# 2. 为每个主题创建词袋表示# 同一主题的所有文档合并 → 统计词频# 3. 应用 c-TF-IDFctfidf_modelClassTfidfTransformer(reduce_frequent_wordsTrue,# 降低过于频繁的词的权重bm25_weightingTrue,# 使用 BM25 风格的权重可选)# 4. 得到每个主题的 top N 关键词topic_keywordsctfidf_model.transform(topic_word_frequencies)代码示例使用 c-TF-IDFfrombertopicimportBERTopicfrombertopic.vectorizersimportClassTfidfTransformerimportnumpyasnp# 示例文档docs[机器学习算法需要大量数据,深度学习是机器学习的一个分支,篮球比赛需要团队合作,足球运动员需要良好的体能,政府发布了新的经济政策,外交关系对国家发展很重要]# 1. 创建 BERTopic 模型自定义 c-TF-IDF 参数ctfidf_modelClassTfidfTransformer(bm25_weightingTrue,# 使用 BM25 而非传统 TF-IDFreduce_frequent_wordsTrue,# 降低常见词的权重diversity0.5# 增加多样性可选)topic_modelBERTopic(ctfidf_modelctfidf_model,# 使用自定义的 c-TF-IDFmin_topic_size2,# 每个主题最少文档数verboseTrue)# 2. 训练模型topics,probabilitiestopic_model.fit_transform(docs)# 3. 查看主题关键词基于 c-TF-IDF 排序print(主题和关键词)fortopic_numinset(topics):iftopic_num!-1:# 跳过异常值-1 表示未聚类topic_infotopic_model.get_topic(topic_num)print(f\n主题{topic_num}:)forword,scoreintopic_info[:5]:# 前5个关键词print(f{word}:{score:.4f})# 4. 查看 c-TF-IDF 矩阵print(\n c-TF-IDF 矩阵形状 )ifhasattr(topic_model,c_tf_idf_):print(f矩阵形状:{topic_model.c_tf_idf_.shape})print(f(主题数 × 词汇表大小))与传统 TF-IDF 对比fromsklearn.feature_extraction.textimportTfidfVectorizerimportpandasaspd# 传统 TF-IDF文档级别vectorizerTfidfVectorizer()X_tfidfvectorizer.fit_transform(docs)print(传统 TF-IDF 矩阵形状:,X_tfidf.shape)# (6个文档 × 词汇表大小)# c-TF-IDF主题级别# 假设我们已经有主题标签[0, 0, 1, 1, 2, 2]# BERTopic 内部会合并同一主题的文档# 得到矩阵形状: (3个主题 × 词汇表大小)c-TF-IDF 的优势主题导向为整个主题选择最具代表性的词去噪能力自动降低常见词如的、“是”和停用词的权重可解释性每个主题的关键词都是基于统计的容易理解效率高只在主题级别计算而非文档级别自定义 c-TF-IDF 参数frombertopic.vectorizersimportClassTfidfTransformer# 配置选项ctfidf_config{# BM25 参数bm25_weighting:True,# 使用 BM25更好的长文档处理k1:1.2,# BM25 k1 参数控制词频饱和度b:0.75,# BM25 b 参数控制文档长度归一化# 传统 TF-IDF 参数reduce_frequent_words:True,# 降低过于频繁的词的权重diversity:None,# 可选0-1增加关键词多样性}ctfidf_modelClassTfidfTransformer(**ctfidf_config)# 或者在创建 BERTopic 时直接传递topic_modelBERTopic(ctfidf_modelctfidf_model,# ... 其他参数)可视化 c-TF-IDF 权重importmatplotlib.pyplotasplt# 获取特定主题的关键词和权重topic_num0topic_wordstopic_model.get_topic(topic_num)# 提取词和权重words[wordforword,scoreintopic_words[:10]]scores[scoreforword,scoreintopic_words[:10]]# 绘制条形图plt.figure(figsize(10,6))plt.barh(words,scores)plt.xlabel(c-TF-IDF 权重)plt.title(f主题{topic_num}的关键词权重)plt.gca().invert_yaxis()# 最高权重在顶部plt.show()总结c-TF-IDF 是 BERTopic 的大脑它将传统 TF-IDF 从文档级别提升到主题级别自动识别每个主题最具有区分度的关键词配合嵌入模型既考虑语义相似度又考虑统计显著性使得生成的主题标签既准确又可解释这就是为什么 BERTopic 既能处理海量文档又能生成高质量、易理解的主题
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

在360网站上怎么做推广网站管理系统安装 -

第一章:Open-AutoGLM请假流程发起的核心认知在企业级自动化办公系统中,Open-AutoGLM 作为基于大语言模型驱动的智能流程引擎,其请假流程的发起机制融合了自然语言理解与规则引擎决策能力。用户通过语义化指令即可触发结构化审批流&#xff0c…

张小明 2026/3/5 3:47:37 网站建设

自有服务器可以做网站吗网站被qq拦截 做301

Part.1 第一步,夯实AI Agent开发理论基础 本书以深入浅出的方式阐述了AI Agent的基本概念、发展历程及其在各个领域的应用场景。通过丰富的图示和清晰的逻辑,读者能够迅速建立对AI Agent的全面认知,为后续的学习打下坚实的基础。 Part.2 第二…

张小明 2026/3/5 3:47:38 网站建设

手机网站建站教育模板下载企业网站建设作用

基于Next.js的LobeChat为何成为GitHub星标项目? 在AI技术席卷全球的今天,大语言模型(LLM)的能力已经足够惊艳——写代码、做翻译、生成内容信手拈来。但一个常被忽视的事实是:再强大的模型,如果交互界面粗糙…

张小明 2026/3/5 3:47:38 网站建设

濮阳住房和城乡建设部网站网站推广软件下载

引言:为什么你需要亲手写一个 Ascend C 算子?在 AI 工程实践中,我们常常遇到这样的困境:现有深度学习框架提供的算子无法满足特定需求——可能是精度要求更高、可能是计算模式特殊、也可能是性能瓶颈卡在某个环节。此时&#xff0…

张小明 2026/3/5 3:47:39 网站建设

北京网站策划联系电话做网站在哪里

构建下一代智能问答系统:Kotaemon 与 GraphRAG 的深度协同 在企业知识爆炸式增长的今天,用户不再满足于“找到相关段落”——他们要的是准确、连贯且可追溯的答案。传统检索增强生成(RAG)系统虽然能在多数场景下返回语义相近的内…

张小明 2026/3/5 3:47:52 网站建设

甘肃自助建站系统怎么用最专业网站建设公司

编者按:作为龙蜥社区的理事长单位,阿里云在推动社区发展、技术研发及生态构建中始终发挥着核心引领作用,而阿里云基础软件部产品总监张鹏程更是深度参与了龙蜥操作系统 Anolis OS 的迭代与社区治理的关键进程。近日,2025 龙蜥操作…

张小明 2026/3/5 3:47:42 网站建设