能力

数据转换和数据表示

文本处理和预处理在任何健壮的文本分析平台的后台操作。SumUp通过将严格的模型测试台与基于模型的和基于自组织的、基于经验的处理相结合来改进现有方法。这种组合可以进行句子级的分析,有效地理解单词的选择,跨文件类型的一致性能,以及聪明的算法,这些都会导致异常快速的处理速度和更好的数据表示。

元数据筛选

Nucleus数据集中的文档通常包含附加信息,如每个文档的标题、作者、源、语言、发布日期和其他自定义标记。Nucleus将这些信息存储为元数据,您可以使用这些元数据来选择数据集的子集,并将任何核心分析或高级分析功能应用于该子集,从而允许非常集中和灵活的工作流。已经可以通过api使用,WebApp用户也很快可以使用它。

搜索

您可以搜索数据集中任何文档中可能存在的特定单词。Nucleus的搜索功能通过自动包含与查询共享同一根的替代项,使查询更加健壮。例如:复数和单数,不定式和共轭动词。此功能可用于Nucleus支持的所有语言。

本地存储库同步

大多数公司文件都存在于每个雇员计算机的本地文件夹中。您的组织需要保持与这些文件的连接,但为相应的分析保持内容的最新是很麻烦的。Nucleus文件夹同步器通过一个快速而简单的界面为用户完成所有繁重的工作,从而消除了问题。当新文件被添加到本地文件夹或现有文档被修改时,同步器将新内容发送到Nucleus以自动更新分析。这样,您就可以知道项目的当前状态,而不必经常打扰您的团队,从而使他们能够专注于手头的任务。

资源管理

您的内容仍在Nucleus平台内由您控制。根据需要创建数据集,根据需要删除它们,并在不再认为它们相关时从数据集中删除特定文档。只保留对您和您的团队有用的内容,以实现日益集中的工作流。

主题提取

Nucleus主题模型是其分析能力的支柱。它依赖于10年的研究和3年的设计优化来捕捉人们从彼此交流中学习的方式:去噪并将信息重组为一种更为综合的形式,而不需要先验知识,这样人们就可以适应出现的情况。这种灵活的方法恰恰是Nucleus平台如何提取和标识主题。每个主题都由一个关键字列表组成,这些关键字是在数据集和查询的基础上确定的,并且说明了使用单词的上下文。

总结

Nucleus摘要功能提取相关句子,并将它们组合成类似于执行摘要的要点。此摘要在单个文档级别和跨多个文档工作。Nucleus总结了整个内容,也可以专注于特定的主题。

情感与共识

情感分析允许用户分析和理解贡献者对任何给定主题表达的意见。在Nucleus平台上,情感分析在0%(中性词汇)到100%(强内涵词汇)的范围内考虑了两种观点的极性(积极或消极)和强度。由于来自不同文化背景的专业人士对一个词的感知并不总是相同,所以在Nucleus平台上进行的情感分析既有语言方面的,也有领域方面的。例如,“家庭债务”一词在美国是一个相当中性的金融术语,但在中国却有消极的含义。这同样适用于垂直行业。“软”一词是对时尚纺织品的正面描述,但对NFL球员的负面描述。Nucleus提供了两个特定于领域的词典(finance和general news),并允许其API用户在需要时提供自己的词典。

一致性分析评估对给定主题有相同意见的贡献者的百分比。这在识别和理解少数来源通过多产的写作或强烈偏爱强度大的单词而影响整体感知的情况时尤其有效。您可以快速使用此信息来更好地检测多数意见和有争议的意见。

主题重要性

测量数据集中与主题相关的信息的百分比。这个指标超出了单词计数的范围,因为它考虑了使用单词的上下文,并试图减轻重复内容的影响。

历史分析

历史分析为你带来了对谈话的时间语境理解,这样你就可以在正确的时间做出更好的决定。在过去的一个季度里,人们对某个话题的看法是如何演变的?上个月的话题和现在一样重要吗?它是什么时候第一次出现的?这个工具帮助投资专业人士更好地了解趋势,并且是内容监控领域的一个改变者。

内容推荐

确定对给定主题贡献最大的文档,以便用户可以更好地利用他们的阅读和审阅时间。

数据的半自动标记

数据团队花了近30%的时间标记数据。文档标签通常包括每个文档内容中存在或不存在的单词。Nucleus提供了一个简单的API,通过基于内容中所选单词的存在自动标记文档,减轻了此任务的负担。用户只需要建立一个相关标签的列表,让工具来做剩下的事情。

对比分析

对比分析使您能够分析和理解一组文档与另一组文档的最佳特征信息。这可以应用到今天的新闻中,对比过去几天的文章,以确定正在进行的对话中的新内容。它还可以应用于一组涵盖相同股票或行业的卖方分析师,从他们各自的报告中挑出不同的见解。这可以通过允许研发团队快速提取相关出版物,显著提高研究情报的效率。确定一组文档中最突出的内容。Nucleus强调了有价值的差异,否则会在思想的重复中丢失。

新颖性分析

一篇文章今天发表并不意味着它的内容对读者来说是新的。最近的出版物经常重新整理密切关注该领域的用户已经知道的信息。你可能已经注意到在你自己的行业中缺乏新的内容。Nucleus决定了与之前看到的文档相比,任何给定文档中包含的真正新颖的信息的程度。文档在给定的阈值以上变得值得注意,并赢得您的注意。

主要贡献者分析

在你的新项目中,你应该和谁交谈,以便快速学习一个重要的课题?哪些作者对你关心的话题有最实质性的贡献?主要贡献者分析能以灵活易读的方式回答问题,将关键作者与他们最具代表性的文章一起堆砌在你选择的主题上。

迁移学习

转移学习允许您分析和理解从一个数据集(或外部确定)提取的主题如何在另一个数据集中表示和感知。这在公关、营销策略和政治策略方面尤其强大,可以理解产品或人物在不同媒体中的吸引力。此功能可通过Nucleus API获得。

作者网络分析

作者网络分析根据作者讨论的主题和他们的词汇选择来确定哪些作者彼此最相似。这在内容监控中尤其有用,可以识别以前被禁止的违法者最近创建的帐户,或者对活动帐户进行分组,即使没有明显的联系,这些帐户实际上也可能是密切相关的。此功能可通过Nucleus API获得。

连续分析

内容永远不会停止,你的情报收集也不会停止。这就是流媒体分析让你不断更新的地方。它已经在Nucleus Web App仪表板的后台实现,并且可以很容易地实现为自定义工作流中任何Nucleus API的包装器。

新闻媒体RSS

SumUp团队与早期采用者合作,从新闻媒体收集了200多个英文内容RSS。这些提要分为以下类别:一般新闻、文化、医疗保健、金融、经济、加密和区块链、人工智能。分析世界上最重要主题的最新报告。

Nucleus用户可以通过指定类别和时间段来构建自定义数据集。

此feed从2018年第四季度开始,但医疗类别从2019年第四季度开始,每天更新。添加额外的来源是相当简单的,请联系我们让我们知道你有兴趣的其他来源。通过所有核心分析和高级分析功能提供只读和可访问性。

中央银行

由SumUp团队与早期采用者合作收集的来自28家央行的内容。每家银行都提供母语和英语内容。内容分为四类:演讲、新闻稿、正式研究和非正式出版物。

银行名单如下:
美洲
  • 加拿大银行
  • 美联储
  • 墨西哥银行
  • 巴西银行
  • 所有地区的美国联邦储备银行
欧洲
  • 欧洲中央银行
  • 英格兰银行
  • 德国联邦银行
  • 法国银行
  • 西班牙银行
  • 意大利银行
  • 俄罗斯联邦中央银行
亚洲
  • 中国人民银行
  • 澳大利亚皇家银行
  • 日本银行

作为Nucleus用户,您可以通过指定一组中央银行、一组文档类别、一种语言和一个时间段,基于此feed构建自定义数据集。

此feed从2000年1月或每家银行的最早可用日期开始,目前每天更新。通过所有核心分析和高级分析功能提供只读和可访问性。

证券交易委员会的主要文件

根据EDGAR数据库中提供的文件,所有在美国交易所上市的公司提供的内容。这包括总部设在美国的公司和在美国上市的外国公司。所收集的文件为:10K、10K/A、10Q、10Q/A、8K、8K/A、S1、S1/A、20F、20F/A、6K、6K/A,每个文件的内容按标准化章节进行划分。

Nucleus用户可以通过指定一组股票代码、一组文件、这些文件中的一组部分和一个时间段,基于此feed构建自定义数据集。

此feed从2000年1月或每个公司的最早可用日期开始,目前每天更新。通过所有核心分析和高级分析功能提供只读和可访问性。