【原】代码发布：AlphaGPT v0.1——基于大模型的智能因子挖掘框架（代码+数据下载）

AI量化实验室 2024-03-29 发布于北京

展开全文

在原创文章第495篇，专注“AI量化投资、个人成长与财富自由"。

AlphaGPT v0.1已经发布——利用大模型来自动化生成因子。

之前的历史文章，写过的Quant 4个阶段：

Quantlab3.0进展，结合Quant4.0的思考：全自动，可解释AI量化是未来

原定计划是进一步深化gplearn和深度强化学习Deepalphagen自动挖因子。DeepAlpha通用因子挖掘：支持GPlearn遗传算法和深度强化学习挖掘因子（代码+数据下载）

但近期大模型的发展，着实令人惊艳，传统gplearn和强化学习，在因子挖掘上，最大的痛点，就是因子不可解释，你也无法掌控它的迭代方向。——或者说，它们本质一样，只是一种更高效的“暴力搜索”因子的方式。

不可解释是一方向，更大的问题是“过拟合”。由于只求相关，不问甚解的方式，加上金融数据的低信噪比，过拟合几乎成为常态。传统做法是往更高频走，去捕抓短暂的有效性；去找更多更高质量的数据集等等。——这个方式，之于普通量化人，没有任何优势。

既然如此，我们不如直接“跨进”Quant4.0，大LLM驱动力为基础。这将是星球下一阶段的重点。

这是绝对的前沿！

研报拆解：大语言模型LLM和多智能体(Multi-Agents)实现量价因子挖掘框架

AlphaGPT v0.1，基础框架我搭建起来了，分成FactrGPT，以few-shot的方式，参考worldquant101按要求生成因子：

要求大模型直接返回它生成的表达式，以及——对于因子的解释说明：

{

"expr": "(-1 * rank(((high - open) / open))) * rank(((low - close) / close))",

"desc": "这个因子表达式计算了每日的高低价相对于开盘价和收盘价的变动比例，并取其排名。然后，将这两个排名进行相乘，并取其负值。这个因子可能捕捉到价格在日内波动中相对于开盘和收盘的表现，从而揭示潜在的交易机会。"

}

核心代码如下：

from langchain_community.adapters.openai import convert_openai_messages


def read_file_2_list(filepath):
    with open(filepath, 'r', encoding='utf-8', errors='ignore') as f:
        text = f.readlines()
    return text


sample_json = """
{
  "expr": 生成的因子表达式,
  "desc": 对该因子表达式的解释说明
}
"""

from langchain_openai import ChatOpenAI
import json as json

KIMI_KEY = 'sk-填写你自己的key'  # KIMI的KEY

class FactorGPTAgent:
    def __init__(self):
        self.sources = [x.strip() for x in read_file_2_list('worldquant_101.txt')]
        optional_params = {
            "response_format": {"type": "json_object"}
        }
        # openai_api_key = KIMI_KEY
        self.model = ChatOpenAI(temperature=0, openai_api_key=KIMI_KEY, model='moonshot-v1-8k',
                                base_url="https://api./v1", max_retries=1, model_kwargs=optional_params)

    def build_prompt(self):
        prompt = []
        return prompt

    def run(self):
        lc_messages = convert_openai_messages(self.build_prompt())
        response = self.model.invoke(
            lc_messages).content
        print(response)
        return json.loads(response)


if __name__ == '__main__':
    FactorGPTAgent().run()