初音未來誕生已經 15 年了,雖然 Vocaloid 聲音已經為人們所熟悉,但要創造出一種會被誤認為是人類聲音的 AI 聲音卻很困難。類似於美與醜都會出現的“恐怖谷”,人們會敏銳地意識到其中的差異,除非他們達到一定程度的精確度。即使在今天,花費數百萬日元也可以創造出類似的東西,但這並不能概括。 CoeFont 作為這一領域的遊戲規則改變者出現,具有革命性,因為它只需 500 日元就能使用 AI 再現你的聲音。更令人驚訝的是,開發者只有20歲。這次,我們訪問了AI語音服務的創辦人早川省吾,了解他的背景。
■在人工智慧企業兼職的同時,成功從大型美容院籌集資金的高中生
――:請自我介紹一下。
我是早川翔吾。我目前是東京工業大學的二年級學生,經營著一家名為 CoeFont(語音字體)的服務/公司,目前約有 30 名員工。我剛上大學課程,我一邊做兼職一邊做這件事。
---早川先生很小就開始創業,但更令人驚訝的是,早川先生在CoeFont之前就從高中就開始從事應用程式開發。你是怎麼在國外長大的?
由於父親的工作(作為大學教授),我從幼兒園到7歲在英國生活了幾年,但我是一個特別正常的孩子。我所做的就是踢足球。我也喜歡遊戲,當時我經常使用 Club Penguin* 與電腦上的朋友在線上聊天。
*Club Penguin是一款2005年發布的MMO遊戲,2013年是一個擁有2億註冊用戶的龐大服務。加拿大開發商 New Horizon 於 2007 年被迪士尼以 3.5 億美元收購。
――:回到日本後,我進入了國中和高中,但高中時我進入了不屬於該學校的東京工業大學科學技術高中*。為什麼轉學到這所學校?
它不是免費的。嗯,一般來說,國中也是免費的。但如果你在上課時使用智慧型手機,你會被罵,你必須穿校服,午餐時間你不能出去玩,還有…不,我承認你說的是很奇怪。不過,高中時期我有很多自由,現在回想起來,覺得國中時期壓力很大,哈哈。
*東京工業大學科學技術高中:偏差分數72分,是繼海成、學藝大學、早稻田等之後,東京都內第12所國立預科學校(根據《大家高中情報》) 。從第二年開始,學生被分配到應用化學、資訊系統、機械系統、電氣電子、建築設計等專業領域。
--:我看,相當鋒利(笑)。於是你參加了入學考試,去了一個更自由的地方。你能學習嗎?
我想我能夠學習,儘管我沒有太多時間學習。我不是那種想成為第一名的人,但我一直在努力以最有效的方式進入前 10%。我並不是真的熱衷於成為第一名。我是那種用最少的工時完成需要完成的事情,然後做我喜歡的事情的人。
——:據我所知,東京工業大學看起來不像是一所普通的高中。這就是你發現資訊科學專業的地方,對吧?
是的,我高中時聽堀江貴文的講座時,我問他現在覺得什麼技術有趣,他說:“深度學習。如果你有空閒時間,為什麼不嘗試一下呢?”從那時起,我開始研究人工智慧。
然而身為一個高中班的我,我前期應該學的東西都學會了,我還在線上史丹佛大學課程,一邊閱讀論文一邊學習機器學習、深度學習和應用程式開發。我很高興我能說英語。
――:呃,史丹佛大學! ? ?你用這些錢做什麼?
父母對此很接受,給我交了學費,我自己也能賺錢了。從高中二年級開始,我就在秋葉原的人工智慧企業兼職。放學後,我每週工作 3 天,每天 6 小時(下午 3 點至晚上 9:30)。現在想來,這對於兼職工作來說是正常的時薪,但當我上高中時,我心裡想:“這是一家多麼好的公司,能夠付給我這麼多錢!”這很有趣,因為我能夠對我真正感興趣的人工智慧進行實際工作。
我開發了一個程序,透過結合參賽者的年齡和天氣等因素來預測划船比賽的排名,以及一個使用衛星照片發現地球上開放空間的程序,我對它們進行了大約六個月的研究,然後才退出。
――:高中時有空打工嗎?
是的,他承認了。這是一份課餘打工,而且打工的內容本身也和高中所追求的方向完全吻合。在學校,我在桌上放了一個顯示器,一邊上課一邊閱讀英文論文,研究比特幣市場價格等資訊。只要適合你的目的,這是一所提供很多自由的高中,我覺得我就是這樣「長大」的。
■由大型美容院投資的高中三年級學生開發的AI髮型診斷應用程式
――:說到企業演示,在一家人工智慧企業兼職後,我正在開發一個名為「AI Stylist」的應用程式。這背後有什麼故事呢?
畢竟我想創造一個可以外部使用的服務。我和我的高中同學創建了各種各樣的服務,但它們直到真正在外面的世界使用時才會被打磨。
我想到了「一項使用人工智慧根據照片診斷適合你的髮型的服務」的想法,然後去地球控股公司工作,這是一家主要的美髮沙龍特許經營店。公司在全國擁有約250家加盟店。當我向創始人 Toshiharu Kokubun 介紹該專案時,他立即說:“我會給你錢並製作一個應用程式”,開發工作立即開始。
--:高中生籌集了投資。國分先生是如何找到路線的? 而且,即使你能做程式設計部分,你還是需要一個開發團隊來思考UI和設計部分,對吧?
我的意思是,我周圍有一位老人總是向我介紹類似的事情。 AI Stylist已被下載近100萬次。我確實不擅長設計部分,所以我向朋友和周圍的人詢問了各種事情。
(編按:早川先生每次啟動或開發一項服務時,他總是說,「一位老人向我介紹了我」或「我周圍有人可以幫助我。」)也許我有高希望早川的大人們和朋友們根據早川的興趣以各種方式聯繫和合作,「以她為中心自發性地形成了一個團隊」。
AI Stylist 是我在高三時開發的,有 1,300 則評論。
――:另外,當您開發AI Stylist時,您正在參加高三的入學考試,對吧?
我同意。從一月到三月,我花了大約三個月的時間來發展它,這是我高中畢業前的最後一年。幸運的是,由於我是一名內科生,國考不需要考那麼高的分數,所以我真的提前三天就開始準備考試了。我真的沒有做任何像入學考試學習之類的事情,哈哈。
(編者註:後來證實,東京工業大學錄取的學生人數限制為10人,而且必須是成績前5%的學生。)(這似乎不是一個框架,你可以穿過而不穿過。)
――:早川先生,高中三年級時,您開發的面向外國遊客的AR導航應用程式在App甲子園中獲得了第三名。我從事這種AI開發的職業生涯並不算長,學習1-2年怎麼能走到這一步? 不是說日本不出美國大學和日本工程師嗎?
是這樣嗎? 不,如果你正常學習(史丹佛大學等的課程,前沿的研究論文),你就能做得很好。可能有不同的等級。即使你是一家偉大公司的人工智慧專家,仍然有一些人沒有碩士學位或沒有讀過任何研究論文。
(編按:早川先生也沒有碩士學位)
■ 二話不說就通過面試,加入孫正義的“天才工廠”
――:早川先生,你的門薩(人口中前2%的智力指數)也包括在內,所以我覺得你一定很聰明。您有去東京大學或海外大學留學的願望嗎?
沒有。想去的話可以晚點去,而且不用參加入學考試很容易就可以內部上大學,這也是我選擇東京工業大學的原因。東京工業大學的課程也很有趣。我的首要任務是盡快創建一項服務並將其發布給社會。
――:進入大學後,我成為了孫正義財團的會員。我還認識一位支持學生中山,他是一位「有點不尋常的天才藝術家」。這是一個令人驚嘆的系統,您可以免費獲得研究和學費補助,並且無需要求任何回報。這是一個支持具有非凡能力的人的特殊計畫(不僅針對日本的年輕人,而且針對全世界的年輕人)。
他們都是很棒的人,真的。我是孫正義財團的最後一位成員(笑)。目前該基金會有240名成員。有五年級進入東京大學生物實驗室的孩子,也有14歲進入雪梨大學的學生。
<孫正義財団応招募資格>
・無論在哪個領域,在國際或國內比賽中取得優異成績的人。
・具有國際認可的資格或屬於某個組織的人
・在學術和研究活動中成績和成就明顯突出的人
・準備創業或已經在自己的事業上取得成就的人
・在基金會秘書處的論文評選過程中表現出優秀思維的人
該基金會於 2016 年 12 月由私人資金成立,不隸屬於軟銀,由熱愛智力問答節目並與高素質學生和兒童舉辦晚宴的孫正義創立。
---:從這個名單來看,沒有門薩的人似乎是少數。從獲得東京大學校長獎,到成為未曾探索的超級創造者,再到升上海外大學。沒有一個人沒有獲獎。 。 。話說,早川先生是怎麼被選出來的呢?
哦,我的很有趣。我的時間有限,只有2分鐘來展示我的成果,但我的例子是介紹人工智慧語音「CoeFont」的服務,所以我連聲音都沒有發出,更不用說宣傳了。評審是孫正義、諾貝爾獎得主山中伸彌、京都大學教授、將棋棋手羽生佳治和東京大學校長五上。的AI語音講了整整2分鐘。然後,AI說完,就回來了,只是說了聲「謝謝」。
――:這是一場有影響力的演講。
■語音AI合成服務「CoeFont」成立
――:您是怎麼想到創辦CoeFont的呢?
我於 2020 年 11 月開始創業,當時是大學一年級的秋天。我一直很喜歡企鵝俱樂部和聊天遊戲,但我不喜歡我錄製聲音時的聲音,所以我認為可以應用深度學習讓它變得酷或可愛。
手寫的文字字體很難閱讀,因此可以將其分型並選擇易於閱讀的字體,營造易於使用的氛圍。我認為如果你能像選擇字體一樣選擇你最喜歡的聲音,那會很有趣。
- :一定。語音承載著個性和個性,但隨著元宇宙和基於頭像的對話的流行,我感覺到語音字體對話的需求將會大幅增加。
在其他公司,費用約為 100 萬日圓。使用CoeFont,如果你只需支付500日元,錄製15分鐘的聲音,經過深度學習處理,大約半天時間就成為你自己的「語音字體」。你所要做的就是將你最喜歡的對話設定為文本,AI 會自動以你自己的語音字體自然地讀出它。我的準確度已經提高到了可以被誤認為是我在說話的程度。另一方面,如果你像我一樣不喜歡自己的聲音,你可以使用著名的、很酷的配音演員的聲音,讓他大聲朗讀。
--: 價格非常便宜!
目前,我們幾乎以成本價提供。首先,傳播很重要,我認為慢慢傳播之後,如果商業能夠接手的話,那就太好了。用戶可以將自己的語音字體發佈到市場上,並透過使用費賺取收入。
目前已上傳約4000種語音,只需花費積分即可使用。您可以為每個角色使用 5 點,就像 T 點一樣,讓著名配音演員的聲音讀出您的名字。這是一種以100日圓等預購10,000點積分,並將銷售金額返還給所使用的語音賣家的模式。
我認為忙碌的配音演員將能夠出售自己的語音字體,而不必每次都去錄音室錄製每種字體。
CoeFont的熱門語音賣家。使用網站上的積分「授權」您的聲音
當您以這種方式註冊時,文字資料將使用您購買的語音自動讀出。可直接用於使用頭像等進行視訊分發的品質。
――:服務的反應如何?
從一開始反響就很好。兩天來的用戶量就達到了2萬,一個月的時間就超過了20萬。最簡單的理解方法就是多看電視報道並觀看。它還涵蓋了語音字體的創建方式、實際播音員的錄音以及失去聲帶的人的用例。
――:但是,如果BtoB能夠安排語音監督和版權費用,這可能是革命性的。我們不需要每次都聯繫經紀公司並設立錄音室,而是透過簡單地借用該人的語音字體並進行監督來銷售作品。
對於專業配音機構來說,品質控制是極其重要的,所以我們還沒有達到這個使用水準。目前,中小型影片製作公司的需求旺盛,我們收到的詢問比預期要多。
出版商也很感興趣,我們正在與小學館合作,製作《鬼滅之刃》中產屋敷陽也一角森川智之的人工智慧語音合成有聲讀物。語音合成有聲書發行服務「Bijigaku」。錄製有聲書大約需要兩週時間,因為需要閱讀大量內容。當日程無法避免時,也有使用CoeFont的需要。
--: 外國人似乎也有需求。
哦,PokeTalk,一款智慧型手機人工智慧翻譯應用程序,也採用了它作為閱讀日語的標準語音。此外,電視台和媒體公司對此也很感興趣,所以我們正在與TBS和東京電視台合作,Newspicks也在創建使用AI來朗讀他們的「[AI語音]新聞熱點」的媒體。
――:當你這樣聽的時候,你的聲音和VOCALOID的聲音之間就有了清晰的界線。感覺就像一個人在讀它。另一方面,正如先前電視採訪影片中提到的,這對普通人來說也可能很重要,例如失去聲帶的人。
這是我沒想到會使用的一種方式。酒井先生就是這樣的例子,他接受了聲帶切除手術。我能夠用自己的聲音與家人進行各種對話,再次提醒我語音字體的重要性。
我相信其他人,例如患有肌萎縮側索硬化症 (ALS) 的人,也有類似的需求。我們允許這些人免費使用我們的服務。
――:但是,如果把這樣的產品製作工作、作為學生所必須的學習和考試、在六本木租用建築物開辦公司、管理30人的組織等工作結合起來的話,不是嗎? ?
啊,還有人做集資、開公司、招人之類的事(當然我也在看)。我們有埃森哲的高階主管從事這類工作。我不自己做所有事情。有很多事情我不明白。
另外,當你達到這個規模時,你必須做很多外部工作,例如媒體採訪和出差,所以我不能經常呆在辦公室,所以我使用內部工程師來刷產品和我正在開始創建用戶界面。
――:早川先生似乎有志於創造更多不同的服務。
嗯,我還想做一些其他的事情,但是現在,我將集中討論如何擴展 CoeFont。目前仍然只有 200-300 家公司,但我認為他們會開始以多種不同的方式使用它。我們希望增加使用 CoeFont 的案例數量,包括安全公司和娛樂產業,包括遊戲產業。就在今年6月,我們降低了企業使用門檻,請您試試看。