第2期:10x生产力

💡

<信息差——独立开发者出海周刊介绍>

Knowledge is power, info-gap is money!

记录独立开发者出海用得到的优质信息,帮助独立开发者缩小信息差,每周一发布。

周刊开放投稿,欢迎投稿以下内容:

  • 开源项目
  • 创意工具/生产力工具
  • 独立开发者出海教程
  • 优质文章/推文/视频

本周刊由@weijunext运营

Google 的大模型 Gemini 是如何得名的

翻译自原文:How Google’s AI model Gemini got its name

Gemini 首次在 2023 年的 I/O 大会上提及,当时我们简要介绍了我们第一个本地多模态模型正在训练中,并且已经展示了令人印象深刻的能力。一年后,我们将 Gemini 模型应用到搜索、广告、Workspace、Pixel 等多个产品中,包括昨天在 I/O 大会舞台上分享的一些最大的创新。

随着 Gemini 持续打响名号,我们不禁好奇,这个名字是怎么来的呢?为了解答案,我们询问了 Google DeepMind 团队,了解他们为什么把它叫做“Gemini”的故事。

名称背后的故事

起初,该项目的临时名称是“Titan”,这是土星最大卫星的名字。“我并不太喜欢这个名字,”Gemini 的共同技术负责人 Jeff Dean 说。但它给了他一个启发——或者说是一个来自太空的信号。

Gemini 是拉丁语中的“双子”。在天文学中,它是一个与希腊神话中的双胞胎 Castor 和 Pollux 相关的星座,其两颗最亮的星星即以这对双胞胎命名。因此,我们的 AI 模型名称的意义也有两层。

首先,双子座的一个关键特征是双重性格,能够快速适应、连接各种人群,并从多个角度看问题——这些主题非常适合当时 Google 的情况。

近十年来,DeepMind 和 Google Research 的 Brain 团队在 AI 领域取得了一些全球最重大的研究突破,包括大规模深度学习、深度强化学习和 AlphaGo,以及几乎所有大语言模型(LLM)基础的 Transformer 架构等。为了进一步加速我们的进展,2023 年 4 月,这两个团队合并成立 Google DeepMind,将他们在 AI、计算能力、基础设施和资源方面的才干聚集在一起。

该团队要启动的第一个任务是什么?一系列强大的多模态 AI 模型。

“Gemini 项目是因为我们希望将从事语言模型工作的团队更紧密地结合在一起,”Jeff 说。“我觉得‘Gemini’这个名字中的双胞胎概念非常适合。这里的双胞胎指的是原 Brain 团队和原 DeepMind 团队,他们开始共同致力于这个雄心勃勃的多模态模型项目。”

名称的另一个灵感也与太空有关:NASA 早期的登月计划——双子座计划(Project Gemini),该计划从 1965 年持续到 1968 年。

这个关键的太空计划是水星任务(确定人类可以在太空生存)与阿波罗计划(实现人类登月)之间的桥梁。双子座计划,以其两人太空船命名(巧合的是,它由 Titan 火箭提供动力),旨在测试设备和技术,以便在阿波罗之前让宇航员在太空中停留更长时间。它将 10 个任务组送入太空,并取得了重大成就,如首次美国太空行走和首次将两艘太空船在地球轨道上连接在一起。

双子座计划对阿波罗计划成功的重要性引起了团队的共鸣。在某个时候,Jeff 在团队正在处理的一个文档中的评论中提出了“Gemini”这个名字,并得到了大家的认可。“我立刻就对这个名字心动了,因为训练大语言模型的巨大努力与发射火箭的精神相契合,”Gemini 的共同技术负责人 Oriol Vinyals 说。“将我们有史以来最雄心勃勃的项目命名为 Gemini 是非常合适的。”

AI 模型的一大步

在许多方面,AI 有可能解决一些世界上最大的挑战,其突破对人类的重要性堪比登月。我们的 Gemini 模型是一个关键的进步,代表了我们将继续以安全和负责任的方式追求这些目标。“现在的问题是,会不会有一个名为 Apollo 的 Gemini 后续项目?”Oriol 微笑着补充道。

无论未来如何,Google 的 Gemini 时代才刚刚开始。去年 12 月,我们推出了三个版本的 Gemini 1.0:Ultra、Pro 和 Nano。几个月后,我们推出了 1.5 Pro 版本,昨天,我们宣布了新的 1.5 版本——Flash。“关于如何命名模型的其他想法是使用宇宙中的星星名字,因为我们的模型也有很多不同的大小,”Oriol 说。“可以说我们在 Gemini 中被宇宙所吸引!”

自去年 12 月推出以来,我们已经通过 Google 产品将 Gemini 带给了数十亿人,成千上万的开发者和企业也在使用 Gemini API 构建产品。

“Gemini 诞生之初就是为了创造世界上最强大的模型,”Oriol 说。“通过将它作为产品的名称,我希望我们的用户能够感受到我们的研究团队将不断带来的改进、创造力和创新。”

我们并非占星家,但可以肯定地说,Gemini 的未来看起来一片光明。

开源项目

  • Caesium Image Compressor

    开源的图像压缩软件,旨在在保持图片整体质量的前提下减小数字图片的文件大小。它支持 JPG、PNG 和 WebP 等流行格式。用户可以根据需要调整图片的文件大小和分辨率。

    caesium-image-compressor

  • Firecrawl

    Firecrawl 是一个开源的爬虫工具,能够爬取任何网站并转换成 Markdown 或结构化数据;支持全面的网页抓取和搜索,并提供了用于抓取、转换和提取数据的单一 API 接口。

    firecrawl

  • search4all

    开源版Perplexity,个人AI搜索Copilot,它整合了多种搜索引擎,如 Google、Bing 和 DuckDuckGo,并支持 OpenAI 和其他大型语言模型。用户可以通过 Docker 或手动安装来部署这个项目。

    search4all

  • Marker - PDF 转 Markdown

    能够快速且准确将 PDF 文件转换成 Markdown 格式的工具,特别适用于书籍和科学论文,支持多语言和复杂格式,如表格和方程式。

    社区已有人 fork 开发了一个 API 版本:Github - marker-api

    marker-api

  • Extension.js

    Extension.js 是一个命令行工具,它支持一键生成可在不同浏览器上运行的插件开发环境。支持的技术包括 TypeScript、WebAssembly、React 和现代 JavaScript。开发者可以使用命令行直接启动新的扩展项目,也可以将其集成到现有的扩展中。

    extension.js

  • SVGL

    一个包含了知名公司与组织的 SVG Logo 库。

    svgl

工具推荐

  • Open Doodles

    免费的开源插画网站,有以下特性:

    1. 丰富的插画,支持在线编辑
    2. 支持导出svg、png等矢量图
    3. 如果需要更进一步的设计,支持定制服务

    opendoodles

  • Screen Guru

    Screen Guru 是一个允许用户捕获整个网页的高质量截图工具;用法很简单,只要提交网页URL就可以自动完成截图。

    本项目代码也已经开源:Github - screen-guru

    screen-guru

  • Free AI Face Swap

    AI Face Swap是一个图片换脸工具,使用深度学习算法来识别和交换图像及视频中的人脸,允许用户调整交换强度和细化面部特征,以达到理想的视觉效果。

    ai-face-swap

  • Inpaint-web

    免费去除水印和清除干扰元素的工具。

    本项目功能纯前端实现,项目已开源:Github - inpaint-web

    inpaintweb

  • VIVA AI

    人工智能驱动的创意视觉设计平台,专注于通过 AI 技术增强视频内容。该平台允许用户免费使用文生视频的 AI 进行创作。

    VIVA

  • GeoSpy AI

    只需上传一张照片,GeoSpy AI 就能分析出这张照片是在哪里拍摄的,而且能够自动在地图上标出拍摄地的位置和提供经纬度。不过,对于国内的照片判断精确度还不够高。

    GeoSpy AI

出海教程

技术新闻

  • 消失的 Ilya 官宣离开 OpenAI

    Ilya说:近十年后,我决定离开 OpenAI。公司的发展轨迹堪称奇迹,我相信 OpenAI 将在 @sama、@gdb、@miramurati 以及现在 @merettm 出色的研究领导下,打造既安全又有益的 AGI。能够与大家共事是我的荣幸,我会非常想念大家。再见,感谢你们所做的一切。我很期待接下来的计划——这个项目对我个人来说意义重大,我会在适当的时候分享细节。

  • Google Gemini升级:更快的模型、更长的上下文和面向未来的 Agent 基建

    1. Google 推出了Gemini 1.5系列模型的更新,包括新的轻量级模型1.5 Flash,其优化了速度和效率,同时具有200万token的长上下文窗口。1.5 Pro模型也进行了显著改进,增强了代码生成、逻辑推理、多轮对话等能力。
    2. Google 宣布了下一代开放模型Gemma 2,采用全新架构,旨在实现突破性的性能和效率。
    3. Google DeepMind 分享了他们对未来AI Agent的愿景:打造能够像人一样理解和响应复杂动态世界的通用AI agent,它们可以持续编码视频帧,将视频和语音输入组合成事件时间轴,并高效地缓存这些信息以便快速响应,未来有望成为人们身边的专家级AI助手。
  • 谷歌在搜索中引入 AI 智能概述

    AI概述在搜索结果中出现时,旨在通过综合网络和Google知识图谱中的信息,快速提供关于特定话题的概述。这种功能无需发布者进行任何特别操作即可受益。

    AI概述会展示链接,这些链接指向支持概述中信息的资源,使用户能够更深入地了解话题,并探索来自发布者、创作者、零售商等多样化的内容。

  • 苹果在 iOS 18 中引入眼球跟踪功能,增强无障碍访问能力

    由人工智能支持的眼动追踪为用户提供了只需双眼即可使用 iPad 和 iPhone 的内置选项。

优质文章/推文/视频