【原】一个老程序员对小浣熊 AI 办公助手的使用体验

汪子熙 2024-07-14 发布于上海

展开全文

我是一个老程序员，今年 42 岁，仍然在一线编程领域工作。

2022 年底以 ChatGPT 为代表的 AI 工具席卷整个业界后，我也使用了不少能提高办公效率的 AI 工具。比如程序员的好帮手，来自微软的 Copilot.

这款名叫小浣熊的 AI 办公工具，我之前并没有听说过。

在 InfoQ 社区首页看到它出自商汤旗下，我眼前一亮，觉得这款工具肯定不会差。于是就花了一点时间试用了一番，通过本文同各位同行交流。

我手头正好有个数据分析的实际需求。

我平时坚持技术写作，每一篇文章写好后，我都把文章标题维护到一个 Excel 文件中。不知不觉也有 5000 多篇了。

于是我想了解下，这 5000 多篇文章，大致的分类情况。

打开小浣熊工具集合里的办公小浣熊：

https://raccoon./office

选择本地 Excel 文件进行上传。

然后发出指令：

我上传的 Excel，第一列为文章标题，请你分析这个 Excel 里总共的文章数量，并且根据文章标题，智能地将这些文章进行归类，然后绘制出饼状图，展示每一类的文章，占文章总数的百分比。

我们在小浣熊办公助手里，能看到其自动生成 Python 代码，使用的 pands 库进行数据分析。

很快就看到了数据分析的结果：

分析结果显示，编程类文章约占五分之一，设计类占 16.1%, 而其他类文章占据了五分之三。

我觉得这个结果不太准确。因为事实上，我的大部分文章，都是和计算机编程技术相关的。而现在 60% 的文章，被分类成了「其他」。

那么来看看生成这段结果的 Python 代码：

# 重命名列名以便于处理
df.columns = ['文章标题']
# 计算文章总数total_articles = df['文章标题'].nunique()
# 对文章标题进行分类# 这里我们可以尝试使用关键词匹配的方式进行分类# 定义一些关键词和对应的分类
categories = {    '编程': ['编程', '代码', '开发', '开发', '算法', '数据结构', '软件', '系统', '技术', '技术', '技术', '技术'],    '设计': ['设计', 'UI', 'UX', '图形', '界面', '视觉'],    '产品': ['产品', '运营', '市场', '用户', '体验'],    '其他': []}# 为每篇文章分配一个类别
def categorize_article(title):    for category, keywords in categories.items():        if any(keyword in title for keyword in keywords):            return category    return '其他'
df['分类'] = df['文章标题'].apply(categorize_article)# 计算每个分类的文章数量category_counts = df['分类'].value_counts()# 显示分类结果和文章总数total_articles, category_counts

可以看出，这段代码定义了一个字典数据结构 categories，键为硬编码的编程，设计，产品和其他四个字符串，值为数组。

然后遍历 5000 多篇文章的标题，如果标题至少包含这四个类别对应数组里任意一个元素，就认为该文章属于该类别。

举个例子，假设有篇文章的标题为 SAP UI5 List Report Lazy Load 技术介绍。因为标题里包含技术这个字符串，而小浣熊办公助手生成的硬编码的编程类别里，也定义了一个叫做技术的元素。

因此二者匹配，SAP UI5 List Report Lazy Load 技术介绍这篇文章，被划分到编程的类别范畴内。

于是我调整了提示指令，新的内容如下：

你好，我阅读了你生成的 Python 源代码。我发现你是通过简单的字符串匹配方法，即分析每篇文章标题，是否包含了硬编码的类别关键字，来对文章进行分类。
我现在想请你换一种方式，通过对文章标题，进行语义分析，来对其进行分类。
我举个例子，有这样一篇文章标题：SAP UI5 List Report 的 Lazy loading 实现机制分析。
虽然文章标题，并没有出现类似“技术”的关键字。
但是在编程领域，Lazy loading 是一种公认的异步加载数据技术，因此这篇文章，应该被划分到技术文章的范畴。
请你根据我上述的例子，重新对 Excel 里的文章进行分类。

然而当我发出指令后，收到提示消息：